Training in progress, step 32

Browse files

Files changed (7) hide show

adapter_config.json +6 -6
adapter_model.safetensors +2 -2
all_results.json +4 -4
best_metrics.json +1 -1
train_results.json +4 -4
trainer_state.json +195 -195
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -15,17 +15,17 @@
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "o_proj",
-    "v_proj",
-    "down_proj",
     "gate_proj",
     "q_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
+    "v_proj",
+    "up_proj",
     "q_proj",
+    "k_proj",
+    "down_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1d4b690057453ad0d2c80eb6f7b05edee091e46433f665ad528aaef7f8743ff
-size 156927136

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc4ba63adf0a150ed92cb7b3170a5c54aac39449553c1cb18a182af05b74102
+size 313820752

all_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.48598923115059733,
-    "train_runtime": 1129.8879,
-    "train_samples_per_second": 7.25,
-    "train_steps_per_second": 0.453
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.4858610653318465,
+    "train_runtime": 1143.2565,
+    "train_samples_per_second": 7.165,
+    "train_steps_per_second": 0.448
 }

best_metrics.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~383393794298172~~}


1	+ {"eval_loss": 0.38298845291137695}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.48598923115059733,
-    "train_runtime": 1129.8879,
-    "train_samples_per_second": 7.25,
-    "train_steps_per_second": 0.453
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.4858610653318465,
+    "train_runtime": 1143.2565,
+    "train_samples_per_second": 7.165,
+    "train_steps_per_second": 0.448
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.383393794298172,
   "best_model_checkpoint": "outputs/checkpoint-512",
   "epoch": 3.002932551319648,
   "eval_steps": 32,
@@ -10,588 +10,588 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "grad_norm": 0.125,
       "learning_rate": 0.000125,
-      "loss": 1.2564,
       "step": 8
     },
     {
       "epoch": 0.09,
-      "grad_norm": 0.1337890625,
       "learning_rate": 0.00025,
-      "loss": 1.1071,
       "step": 16
     },
     {
       "epoch": 0.14,
-      "grad_norm": 0.1181640625,
       "learning_rate": 0.000375,
-      "loss": 0.8351,
       "step": 24
     },
     {
       "epoch": 0.19,
-      "grad_norm": 0.11181640625,
       "learning_rate": 0.0005,
-      "loss": 0.709,
       "step": 32
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.5833926796913147,
-      "eval_runtime": 2.7901,
-      "eval_samples_per_second": 17.203,
-      "eval_steps_per_second": 2.15,
       "step": 32
     },
     {
       "epoch": 0.23,
-      "grad_norm": 0.1064453125,
       "learning_rate": 0.0004916666666666666,
-      "loss": 0.6104,
       "step": 40
     },
     {
       "epoch": 0.28,
-      "grad_norm": 0.10693359375,
       "learning_rate": 0.00048333333333333334,
-      "loss": 0.5962,
       "step": 48
     },
     {
       "epoch": 0.33,
-      "grad_norm": 0.099609375,
       "learning_rate": 0.000475,
-      "loss": 0.5696,
       "step": 56
     },
     {
       "epoch": 0.38,
-      "grad_norm": 0.13671875,
       "learning_rate": 0.00046666666666666666,
-      "loss": 0.5678,
       "step": 64
     },
     {
       "epoch": 0.38,
-      "eval_loss": 0.47890207171440125,
-      "eval_runtime": 2.176,
-      "eval_samples_per_second": 22.059,
-      "eval_steps_per_second": 2.757,
       "step": 64
     },
     {
       "epoch": 0.42,
-      "grad_norm": 0.0849609375,
       "learning_rate": 0.0004583333333333333,
       "loss": 0.5528,
       "step": 72
     },
     {
       "epoch": 0.47,
-      "grad_norm": 0.0810546875,
       "learning_rate": 0.00045000000000000004,
       "loss": 0.535,
       "step": 80
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.0771484375,
       "learning_rate": 0.00044166666666666665,
-      "loss": 0.5049,
       "step": 88
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.07275390625,
       "learning_rate": 0.00043333333333333337,
-      "loss": 0.5165,
       "step": 96
     },
     {
       "epoch": 0.56,
-      "eval_loss": 0.44684532284736633,
-      "eval_runtime": 2.1779,
-      "eval_samples_per_second": 22.04,
-      "eval_steps_per_second": 2.755,
       "step": 96
     },
     {
       "epoch": 0.61,
-      "grad_norm": 0.068359375,
       "learning_rate": 0.000425,
-      "loss": 0.5133,
       "step": 104
     },
     {
       "epoch": 0.66,
-      "grad_norm": 0.076171875,
       "learning_rate": 0.0004166666666666667,
-      "loss": 0.4931,
       "step": 112
     },
     {
       "epoch": 0.7,
-      "grad_norm": 0.07373046875,
       "learning_rate": 0.00040833333333333336,
-      "loss": 0.5168,
       "step": 120
     },
     {
       "epoch": 0.75,
-      "grad_norm": 0.06787109375,
       "learning_rate": 0.0004,
-      "loss": 0.4926,
       "step": 128
     },
     {
       "epoch": 0.75,
-      "eval_loss": 0.42885932326316833,
-      "eval_runtime": 2.1761,
-      "eval_samples_per_second": 22.058,
-      "eval_steps_per_second": 2.757,
       "step": 128
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.07080078125,
       "learning_rate": 0.0003916666666666667,
-      "loss": 0.4843,
       "step": 136
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.0712890625,
       "learning_rate": 0.00038333333333333334,
-      "loss": 0.4697,
       "step": 144
     },
     {
       "epoch": 0.89,
-      "grad_norm": 0.08056640625,
       "learning_rate": 0.000375,
-      "loss": 0.4681,
       "step": 152
     },
     {
       "epoch": 0.94,
-      "grad_norm": 0.0732421875,
       "learning_rate": 0.00036666666666666667,
-      "loss": 0.4667,
       "step": 160
     },
     {
       "epoch": 0.94,
-      "eval_loss": 0.41727420687675476,
-      "eval_runtime": 2.1762,
-      "eval_samples_per_second": 22.057,
-      "eval_steps_per_second": 2.757,
       "step": 160
     },
     {
       "epoch": 0.99,
-      "grad_norm": 0.07177734375,
       "learning_rate": 0.00035833333333333333,
-      "loss": 0.4721,
       "step": 168
     },
     {
       "epoch": 1.03,
-      "grad_norm": 0.08349609375,
       "learning_rate": 0.00035,
-      "loss": 0.471,
       "step": 176
     },
     {
       "epoch": 1.08,
-      "grad_norm": 0.07421875,
       "learning_rate": 0.00034166666666666666,
-      "loss": 0.4544,
       "step": 184
     },
     {
       "epoch": 1.13,
-      "grad_norm": 0.076171875,
       "learning_rate": 0.0003333333333333333,
-      "loss": 0.443,
       "step": 192
     },
     {
       "epoch": 1.13,
-      "eval_loss": 0.4128858149051666,
-      "eval_runtime": 2.1785,
-      "eval_samples_per_second": 22.033,
-      "eval_steps_per_second": 2.754,
       "step": 192
     },
     {
       "epoch": 1.17,
-      "grad_norm": 0.08251953125,
       "learning_rate": 0.00032500000000000004,
-      "loss": 0.4423,
       "step": 200
     },
     {
       "epoch": 1.22,
-      "grad_norm": 0.0869140625,
       "learning_rate": 0.00031666666666666665,
-      "loss": 0.4704,
       "step": 208
     },
     {
       "epoch": 1.27,
-      "grad_norm": 0.07763671875,
       "learning_rate": 0.00030833333333333337,
-      "loss": 0.4449,
       "step": 216
     },
     {
       "epoch": 1.31,
-      "grad_norm": 0.08349609375,
       "learning_rate": 0.0003,
-      "loss": 0.4313,
       "step": 224
     },
     {
       "epoch": 1.31,
-      "eval_loss": 0.4045116901397705,
-      "eval_runtime": 2.1781,
-      "eval_samples_per_second": 22.038,
-      "eval_steps_per_second": 2.755,
       "step": 224
     },
     {
       "epoch": 1.36,
-      "grad_norm": 0.07666015625,
       "learning_rate": 0.0002916666666666667,
-      "loss": 0.4619,
       "step": 232
     },
     {
       "epoch": 1.41,
-      "grad_norm": 0.08154296875,
       "learning_rate": 0.00028333333333333335,
-      "loss": 0.4435,
       "step": 240
     },
     {
       "epoch": 1.45,
-      "grad_norm": 0.07763671875,
       "learning_rate": 0.000275,
-      "loss": 0.4272,
       "step": 248
     },
     {
       "epoch": 1.5,
-      "grad_norm": 0.083984375,
       "learning_rate": 0.0002666666666666667,
       "loss": 0.4554,
       "step": 256
     },
     {
       "epoch": 1.5,
-      "eval_loss": 0.39897629618644714,
-      "eval_runtime": 2.177,
-      "eval_samples_per_second": 22.049,
-      "eval_steps_per_second": 2.756,
       "step": 256
     },
     {
       "epoch": 1.55,
-      "grad_norm": 0.07373046875,
       "learning_rate": 0.00025833333333333334,
-      "loss": 0.438,
       "step": 264
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.08544921875,
       "learning_rate": 0.00025,
-      "loss": 0.438,
       "step": 272
     },
     {
       "epoch": 1.64,
-      "grad_norm": 0.0810546875,
       "learning_rate": 0.00024166666666666667,
-      "loss": 0.4332,
       "step": 280
     },
     {
       "epoch": 1.69,
-      "grad_norm": 0.0810546875,
       "learning_rate": 0.00023333333333333333,
-      "loss": 0.4453,
       "step": 288
     },
     {
       "epoch": 1.69,
-      "eval_loss": 0.39246222376823425,
-      "eval_runtime": 2.1791,
-      "eval_samples_per_second": 22.027,
-      "eval_steps_per_second": 2.753,
       "step": 288
     },
     {
       "epoch": 1.74,
-      "grad_norm": 0.07080078125,
       "learning_rate": 0.00022500000000000002,
-      "loss": 0.468,
       "step": 296
     },
     {
       "epoch": 1.78,
-      "grad_norm": 0.09423828125,
       "learning_rate": 0.00021666666666666668,
-      "loss": 0.4311,
       "step": 304
     },
     {
       "epoch": 1.83,
-      "grad_norm": 0.07373046875,
       "learning_rate": 0.00020833333333333335,
-      "loss": 0.4537,
       "step": 312
     },
     {
       "epoch": 1.88,
-      "grad_norm": 0.08984375,
       "learning_rate": 0.0002,
-      "loss": 0.4369,
       "step": 320
     },
     {
       "epoch": 1.88,
-      "eval_loss": 0.3888448178768158,
-      "eval_runtime": 2.1807,
-      "eval_samples_per_second": 22.011,
-      "eval_steps_per_second": 2.751,
       "step": 320
     },
     {
       "epoch": 1.92,
-      "grad_norm": 0.0693359375,
       "learning_rate": 0.00019166666666666667,
-      "loss": 0.443,
       "step": 328
     },
     {
       "epoch": 1.97,
-      "grad_norm": 0.08837890625,
       "learning_rate": 0.00018333333333333334,
-      "loss": 0.4328,
       "step": 336
     },
     {
       "epoch": 2.02,
-      "grad_norm": 0.0751953125,
       "learning_rate": 0.000175,
-      "loss": 0.43,
       "step": 344
     },
     {
       "epoch": 2.06,
-      "grad_norm": 0.087890625,
       "learning_rate": 0.00016666666666666666,
-      "loss": 0.4169,
       "step": 352
     },
     {
       "epoch": 2.06,
-      "eval_loss": 0.3901583254337311,
-      "eval_runtime": 2.1777,
-      "eval_samples_per_second": 22.042,
-      "eval_steps_per_second": 2.755,
       "step": 352
     },
     {
       "epoch": 2.11,
-      "grad_norm": 0.0810546875,
       "learning_rate": 0.00015833333333333332,
-      "loss": 0.3996,
       "step": 360
     },
     {
       "epoch": 2.16,
-      "grad_norm": 0.08154296875,
       "learning_rate": 0.00015,
-      "loss": 0.4025,
       "step": 368
     },
     {
       "epoch": 2.21,
-      "grad_norm": 0.0791015625,
       "learning_rate": 0.00014166666666666668,
-      "loss": 0.4098,
       "step": 376
     },
     {
       "epoch": 2.25,
-      "grad_norm": 0.0947265625,
       "learning_rate": 0.00013333333333333334,
-      "loss": 0.4347,
       "step": 384
     },
     {
       "epoch": 2.25,
-      "eval_loss": 0.38746240735054016,
-      "eval_runtime": 2.1784,
-      "eval_samples_per_second": 22.035,
-      "eval_steps_per_second": 2.754,
       "step": 384
     },
     {
       "epoch": 2.3,
-      "grad_norm": 0.0859375,
       "learning_rate": 0.000125,
-      "loss": 0.4234,
       "step": 392
     },
     {
       "epoch": 2.35,
-      "grad_norm": 0.08740234375,
       "learning_rate": 0.00011666666666666667,
-      "loss": 0.4054,
       "step": 400
     },
     {
       "epoch": 2.39,
-      "grad_norm": 0.08984375,
       "learning_rate": 0.00010833333333333334,
-      "loss": 0.4117,
       "step": 408
     },
     {
       "epoch": 2.44,
-      "grad_norm": 0.08935546875,
       "learning_rate": 0.0001,
-      "loss": 0.4163,
       "step": 416
     },
     {
       "epoch": 2.44,
-      "eval_loss": 0.38652801513671875,
-      "eval_runtime": 2.1766,
-      "eval_samples_per_second": 22.053,
-      "eval_steps_per_second": 2.757,
       "step": 416
     },
     {
       "epoch": 2.49,
-      "grad_norm": 0.09619140625,
       "learning_rate": 9.166666666666667e-05,
-      "loss": 0.4216,
       "step": 424
     },
     {
       "epoch": 2.53,
-      "grad_norm": 0.08544921875,
       "learning_rate": 8.333333333333333e-05,
-      "loss": 0.3861,
       "step": 432
     },
     {
       "epoch": 2.58,
-      "grad_norm": 0.087890625,
       "learning_rate": 7.5e-05,
       "loss": 0.3994,
       "step": 440
     },
     {
       "epoch": 2.63,
-      "grad_norm": 0.08642578125,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 0.4171,
       "step": 448
     },
     {
       "epoch": 2.63,
-      "eval_loss": 0.38501664996147156,
-      "eval_runtime": 2.1793,
-      "eval_samples_per_second": 22.025,
-      "eval_steps_per_second": 2.753,
       "step": 448
     },
     {
       "epoch": 2.67,
-      "grad_norm": 0.0908203125,
       "learning_rate": 5.833333333333333e-05,
-      "loss": 0.3924,
       "step": 456
     },
     {
       "epoch": 2.72,
-      "grad_norm": 0.09228515625,
       "learning_rate": 5e-05,
-      "loss": 0.4003,
       "step": 464
     },
     {
       "epoch": 2.77,
-      "grad_norm": 0.08740234375,
       "learning_rate": 4.1666666666666665e-05,
-      "loss": 0.4366,
       "step": 472
     },
     {
       "epoch": 2.82,
-      "grad_norm": 0.08544921875,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.3856,
       "step": 480
     },
     {
       "epoch": 2.82,
-      "eval_loss": 0.3836025893688202,
-      "eval_runtime": 2.1811,
-      "eval_samples_per_second": 22.008,
-      "eval_steps_per_second": 2.751,
       "step": 480
     },
     {
       "epoch": 2.86,
-      "grad_norm": 0.0869140625,
       "learning_rate": 2.5e-05,
-      "loss": 0.3991,
       "step": 488
     },
     {
       "epoch": 2.91,
-      "grad_norm": 0.09033203125,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.402,
       "step": 496
     },
     {
       "epoch": 2.96,
-      "grad_norm": 0.08935546875,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.4184,
       "step": 504
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.0830078125,
       "learning_rate": 0.0,
-      "loss": 0.3914,
       "step": 512
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.383393794298172,
-      "eval_runtime": 2.1833,
-      "eval_samples_per_second": 21.985,
-      "eval_steps_per_second": 2.748,
       "step": 512
     },
     {
       "epoch": 3.0,
       "step": 512,
-      "total_flos": 9.863515762146509e+16,
-      "train_loss": 0.48598923115059733,
-      "train_runtime": 1129.8879,
-      "train_samples_per_second": 7.25,
-      "train_steps_per_second": 0.453
     }
   ],
   "logging_steps": 8,
@@ -599,7 +599,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 32,
-  "total_flos": 9.863515762146509e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.38298845291137695,
   "best_model_checkpoint": "outputs/checkpoint-512",
   "epoch": 3.002932551319648,
   "eval_steps": 32,
   "log_history": [
     {
       "epoch": 0.05,
+      "grad_norm": 0.08740234375,
       "learning_rate": 0.000125,
+      "loss": 1.2568,
       "step": 8
     },
     {
       "epoch": 0.09,
+      "grad_norm": 0.09375,
       "learning_rate": 0.00025,
+      "loss": 1.1087,
       "step": 16
     },
     {
       "epoch": 0.14,
+      "grad_norm": 0.08251953125,
       "learning_rate": 0.000375,
+      "loss": 0.8374,
       "step": 24
     },
     {
       "epoch": 0.19,
+      "grad_norm": 0.076171875,
       "learning_rate": 0.0005,
+      "loss": 0.7087,
       "step": 32
     },
     {
       "epoch": 0.19,
+      "eval_loss": 0.582936704158783,
+      "eval_runtime": 2.9206,
+      "eval_samples_per_second": 16.435,
+      "eval_steps_per_second": 2.054,
       "step": 32
     },
     {
       "epoch": 0.23,
+      "grad_norm": 0.07470703125,
       "learning_rate": 0.0004916666666666666,
+      "loss": 0.6099,
       "step": 40
     },
     {
       "epoch": 0.28,
+      "grad_norm": 0.0751953125,
       "learning_rate": 0.00048333333333333334,
+      "loss": 0.5956,
       "step": 48
     },
     {
       "epoch": 0.33,
+      "grad_norm": 0.06982421875,
       "learning_rate": 0.000475,
+      "loss": 0.5691,
       "step": 56
     },
     {
       "epoch": 0.38,
+      "grad_norm": 0.09375,
       "learning_rate": 0.00046666666666666666,
+      "loss": 0.5675,
       "step": 64
     },
     {
       "epoch": 0.38,
+      "eval_loss": 0.47926369309425354,
+      "eval_runtime": 2.1968,
+      "eval_samples_per_second": 21.85,
+      "eval_steps_per_second": 2.731,
       "step": 64
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.058349609375,
       "learning_rate": 0.0004583333333333333,
       "loss": 0.5528,
       "step": 72
     },
     {
       "epoch": 0.47,
+      "grad_norm": 0.0595703125,
       "learning_rate": 0.00045000000000000004,
       "loss": 0.535,
       "step": 80
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.056396484375,
       "learning_rate": 0.00044166666666666665,
+      "loss": 0.5055,
       "step": 88
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.05224609375,
       "learning_rate": 0.00043333333333333337,
+      "loss": 0.5163,
       "step": 96
     },
     {
       "epoch": 0.56,
+      "eval_loss": 0.44680991768836975,
+      "eval_runtime": 2.197,
+      "eval_samples_per_second": 21.848,
+      "eval_steps_per_second": 2.731,
       "step": 96
     },
     {
       "epoch": 0.61,
+      "grad_norm": 0.048828125,
       "learning_rate": 0.000425,
+      "loss": 0.513,
       "step": 104
     },
     {
       "epoch": 0.66,
+      "grad_norm": 0.053955078125,
       "learning_rate": 0.0004166666666666667,
+      "loss": 0.4927,
       "step": 112
     },
     {
       "epoch": 0.7,
+      "grad_norm": 0.056396484375,
       "learning_rate": 0.00040833333333333336,
+      "loss": 0.5163,
       "step": 120
     },
     {
       "epoch": 0.75,
+      "grad_norm": 0.047607421875,
       "learning_rate": 0.0004,
+      "loss": 0.4923,
       "step": 128
     },
     {
       "epoch": 0.75,
+      "eval_loss": 0.4288952052593231,
+      "eval_runtime": 2.2003,
+      "eval_samples_per_second": 21.815,
+      "eval_steps_per_second": 2.727,
       "step": 128
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.05078125,
       "learning_rate": 0.0003916666666666667,
+      "loss": 0.484,
       "step": 136
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.052001953125,
       "learning_rate": 0.00038333333333333334,
+      "loss": 0.4698,
       "step": 144
     },
     {
       "epoch": 0.89,
+      "grad_norm": 0.057861328125,
       "learning_rate": 0.000375,
+      "loss": 0.4682,
       "step": 152
     },
     {
       "epoch": 0.94,
+      "grad_norm": 0.0517578125,
       "learning_rate": 0.00036666666666666667,
+      "loss": 0.4661,
       "step": 160
     },
     {
       "epoch": 0.94,
+      "eval_loss": 0.4169415235519409,
+      "eval_runtime": 2.1996,
+      "eval_samples_per_second": 21.822,
+      "eval_steps_per_second": 2.728,
       "step": 160
     },
     {
       "epoch": 0.99,
+      "grad_norm": 0.050048828125,
       "learning_rate": 0.00035833333333333333,
+      "loss": 0.4717,
       "step": 168
     },
     {
       "epoch": 1.03,
+      "grad_norm": 0.059326171875,
       "learning_rate": 0.00035,
+      "loss": 0.4706,
       "step": 176
     },
     {
       "epoch": 1.08,
+      "grad_norm": 0.05224609375,
       "learning_rate": 0.00034166666666666666,
+      "loss": 0.4541,
       "step": 184
     },
     {
       "epoch": 1.13,
+      "grad_norm": 0.055908203125,
       "learning_rate": 0.0003333333333333333,
+      "loss": 0.4428,
       "step": 192
     },
     {
       "epoch": 1.13,
+      "eval_loss": 0.4122503697872162,
+      "eval_runtime": 2.1981,
+      "eval_samples_per_second": 21.837,
+      "eval_steps_per_second": 2.73,
       "step": 192
     },
     {
       "epoch": 1.17,
+      "grad_norm": 0.0576171875,
       "learning_rate": 0.00032500000000000004,
+      "loss": 0.4415,
       "step": 200
     },
     {
       "epoch": 1.22,
+      "grad_norm": 0.0625,
       "learning_rate": 0.00031666666666666665,
+      "loss": 0.4701,
       "step": 208
     },
     {
       "epoch": 1.27,
+      "grad_norm": 0.0546875,
       "learning_rate": 0.00030833333333333337,
+      "loss": 0.4445,
       "step": 216
     },
     {
       "epoch": 1.31,
+      "grad_norm": 0.060302734375,
       "learning_rate": 0.0003,
+      "loss": 0.4311,
       "step": 224
     },
     {
       "epoch": 1.31,
+      "eval_loss": 0.4041053056716919,
+      "eval_runtime": 2.1997,
+      "eval_samples_per_second": 21.821,
+      "eval_steps_per_second": 2.728,
       "step": 224
     },
     {
       "epoch": 1.36,
+      "grad_norm": 0.0556640625,
       "learning_rate": 0.0002916666666666667,
+      "loss": 0.4614,
       "step": 232
     },
     {
       "epoch": 1.41,
+      "grad_norm": 0.05859375,
       "learning_rate": 0.00028333333333333335,
+      "loss": 0.4434,
       "step": 240
     },
     {
       "epoch": 1.45,
+      "grad_norm": 0.062255859375,
       "learning_rate": 0.000275,
+      "loss": 0.427,
       "step": 248
     },
     {
       "epoch": 1.5,
+      "grad_norm": 0.059814453125,
       "learning_rate": 0.0002666666666666667,
       "loss": 0.4554,
       "step": 256
     },
     {
       "epoch": 1.5,
+      "eval_loss": 0.3991839587688446,
+      "eval_runtime": 2.2002,
+      "eval_samples_per_second": 21.816,
+      "eval_steps_per_second": 2.727,
       "step": 256
     },
     {
       "epoch": 1.55,
+      "grad_norm": 0.05224609375,
       "learning_rate": 0.00025833333333333334,
+      "loss": 0.4375,
       "step": 264
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.059814453125,
       "learning_rate": 0.00025,
+      "loss": 0.4379,
       "step": 272
     },
     {
       "epoch": 1.64,
+      "grad_norm": 0.057861328125,
       "learning_rate": 0.00024166666666666667,
+      "loss": 0.4335,
       "step": 280
     },
     {
       "epoch": 1.69,
+      "grad_norm": 0.056396484375,
       "learning_rate": 0.00023333333333333333,
+      "loss": 0.4451,
       "step": 288
     },
     {
       "epoch": 1.69,
+      "eval_loss": 0.3925025165081024,
+      "eval_runtime": 2.2103,
+      "eval_samples_per_second": 21.716,
+      "eval_steps_per_second": 2.715,
       "step": 288
     },
     {
       "epoch": 1.74,
+      "grad_norm": 0.050537109375,
       "learning_rate": 0.00022500000000000002,
+      "loss": 0.4681,
       "step": 296
     },
     {
       "epoch": 1.78,
+      "grad_norm": 0.06494140625,
       "learning_rate": 0.00021666666666666668,
+      "loss": 0.4313,
       "step": 304
     },
     {
       "epoch": 1.83,
+      "grad_norm": 0.05224609375,
       "learning_rate": 0.00020833333333333335,
+      "loss": 0.4539,
       "step": 312
     },
     {
       "epoch": 1.88,
+      "grad_norm": 0.0634765625,
       "learning_rate": 0.0002,
+      "loss": 0.4364,
       "step": 320
     },
     {
       "epoch": 1.88,
+      "eval_loss": 0.3885883390903473,
+      "eval_runtime": 2.2015,
+      "eval_samples_per_second": 21.804,
+      "eval_steps_per_second": 2.725,
       "step": 320
     },
     {
       "epoch": 1.92,
+      "grad_norm": 0.049560546875,
       "learning_rate": 0.00019166666666666667,
+      "loss": 0.4425,
       "step": 328
     },
     {
       "epoch": 1.97,
+      "grad_norm": 0.0625,
       "learning_rate": 0.00018333333333333334,
+      "loss": 0.4327,
       "step": 336
     },
     {
       "epoch": 2.02,
+      "grad_norm": 0.052978515625,
       "learning_rate": 0.000175,
+      "loss": 0.4296,
       "step": 344
     },
     {
       "epoch": 2.06,
+      "grad_norm": 0.0625,
       "learning_rate": 0.00016666666666666666,
+      "loss": 0.417,
       "step": 352
     },
     {
       "epoch": 2.06,
+      "eval_loss": 0.3900233209133148,
+      "eval_runtime": 2.2074,
+      "eval_samples_per_second": 21.745,
+      "eval_steps_per_second": 2.718,
       "step": 352
     },
     {
       "epoch": 2.11,
+      "grad_norm": 0.05615234375,
       "learning_rate": 0.00015833333333333332,
+      "loss": 0.3998,
       "step": 360
     },
     {
       "epoch": 2.16,
+      "grad_norm": 0.0576171875,
       "learning_rate": 0.00015,
+      "loss": 0.4019,
       "step": 368
     },
     {
       "epoch": 2.21,
+      "grad_norm": 0.054443359375,
       "learning_rate": 0.00014166666666666668,
+      "loss": 0.4096,
       "step": 376
     },
     {
       "epoch": 2.25,
+      "grad_norm": 0.0673828125,
       "learning_rate": 0.00013333333333333334,
+      "loss": 0.4349,
       "step": 384
     },
     {
       "epoch": 2.25,
+      "eval_loss": 0.38732287287712097,
+      "eval_runtime": 2.1995,
+      "eval_samples_per_second": 21.823,
+      "eval_steps_per_second": 2.728,
       "step": 384
     },
     {
       "epoch": 2.3,
+      "grad_norm": 0.06201171875,
       "learning_rate": 0.000125,
+      "loss": 0.4235,
       "step": 392
     },
     {
       "epoch": 2.35,
+      "grad_norm": 0.0625,
       "learning_rate": 0.00011666666666666667,
+      "loss": 0.4056,
       "step": 400
     },
     {
       "epoch": 2.39,
+      "grad_norm": 0.06396484375,
       "learning_rate": 0.00010833333333333334,
+      "loss": 0.4116,
       "step": 408
     },
     {
       "epoch": 2.44,
+      "grad_norm": 0.0634765625,
       "learning_rate": 0.0001,
+      "loss": 0.416,
       "step": 416
     },
     {
       "epoch": 2.44,
+      "eval_loss": 0.3866064250469208,
+      "eval_runtime": 2.2006,
+      "eval_samples_per_second": 21.812,
+      "eval_steps_per_second": 2.727,
       "step": 416
     },
     {
       "epoch": 2.49,
+      "grad_norm": 0.06787109375,
       "learning_rate": 9.166666666666667e-05,
+      "loss": 0.4214,
       "step": 424
     },
     {
       "epoch": 2.53,
+      "grad_norm": 0.060791015625,
       "learning_rate": 8.333333333333333e-05,
+      "loss": 0.386,
       "step": 432
     },
     {
       "epoch": 2.58,
+      "grad_norm": 0.062255859375,
       "learning_rate": 7.5e-05,
       "loss": 0.3994,
       "step": 440
     },
     {
       "epoch": 2.63,
+      "grad_norm": 0.06103515625,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 0.4169,
       "step": 448
     },
     {
       "epoch": 2.63,
+      "eval_loss": 0.38443723320961,
+      "eval_runtime": 2.2022,
+      "eval_samples_per_second": 21.796,
+      "eval_steps_per_second": 2.725,
       "step": 448
     },
     {
       "epoch": 2.67,
+      "grad_norm": 0.0654296875,
       "learning_rate": 5.833333333333333e-05,
+      "loss": 0.392,
       "step": 456
     },
     {
       "epoch": 2.72,
+      "grad_norm": 0.064453125,
       "learning_rate": 5e-05,
+      "loss": 0.4002,
       "step": 464
     },
     {
       "epoch": 2.77,
+      "grad_norm": 0.0615234375,
       "learning_rate": 4.1666666666666665e-05,
+      "loss": 0.4362,
       "step": 472
     },
     {
       "epoch": 2.82,
+      "grad_norm": 0.061279296875,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.3852,
       "step": 480
     },
     {
       "epoch": 2.82,
+      "eval_loss": 0.38356801867485046,
+      "eval_runtime": 2.2009,
+      "eval_samples_per_second": 21.809,
+      "eval_steps_per_second": 2.726,
       "step": 480
     },
     {
       "epoch": 2.86,
+      "grad_norm": 0.06201171875,
       "learning_rate": 2.5e-05,
+      "loss": 0.3989,
       "step": 488
     },
     {
       "epoch": 2.91,
+      "grad_norm": 0.0634765625,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.4017,
       "step": 496
     },
     {
       "epoch": 2.96,
+      "grad_norm": 0.0634765625,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4178,
       "step": 504
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.058837890625,
       "learning_rate": 0.0,
+      "loss": 0.3916,
       "step": 512
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.38298845291137695,
+      "eval_runtime": 2.1989,
+      "eval_samples_per_second": 21.829,
+      "eval_steps_per_second": 2.729,
       "step": 512
     },
     {
       "epoch": 3.0,
       "step": 512,
+      "total_flos": 1.005493534658642e+17,
+      "train_loss": 0.4858610653318465,
+      "train_runtime": 1143.2565,
+      "train_samples_per_second": 7.165,
+      "train_steps_per_second": 0.448
     }
   ],
   "logging_steps": 8,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 32,
+  "total_flos": 1.005493534658642e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c822435a140bbc9ba485bc690b26c593635fea3e2667caf12b34f417b55a6ad
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa3f91ac55ef4d7bf4d399249e79b960bc87010a73fea3cd32902d0d3d9a8737
 size 4920