Training in progress, step 32

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +2 -2
all_results.json +4 -4
best_metrics.json +1 -1
train_results.json +4 -4
trainer_state.json +262 -262
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -15,16 +15,16 @@
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
     "v_proj",
-    "q_proj",
-    "up_proj",
     "gate_proj",
     "k_proj"
   ],
   "task_type": "CAUSAL_LM",

   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "o_proj",
     "v_proj",
+    "down_proj",
     "gate_proj",
+    "q_proj",
     "k_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:401d51f28568e51bf9b2c1b514f10e237dd09b50f8cdc5a3d471cd6811948162
-size 78480320

 version https://git-lfs.github.com/spec/v1
+oid sha256:043c1f9754bae8c5a065227e6b98b91c218b0c06b197b9e0c892fc32c67fb5b9
+size 156927136

all_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.5280804093927145,
-    "train_runtime": 1170.0816,
-    "train_samples_per_second": 7.001,
-    "train_steps_per_second": 0.438
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.48598923115059733,
+    "train_runtime": 1129.8879,
+    "train_samples_per_second": 7.25,
+    "train_steps_per_second": 0.453
 }

best_metrics.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~403754860162735~~}


1	+ {"eval_loss": 0.383393794298172}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.5280804093927145,
-    "train_runtime": 1170.0816,
-    "train_samples_per_second": 7.001,
-    "train_steps_per_second": 0.438
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.48598923115059733,
+    "train_runtime": 1129.8879,
+    "train_samples_per_second": 7.25,
+    "train_steps_per_second": 0.453
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.40400779247283936,
   "best_model_checkpoint": "outputs/checkpoint-512",
   "epoch": 3.002932551319648,
   "eval_steps": 32,
@@ -10,588 +10,588 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "grad_norm": 0.05322265625,
-      "learning_rate": 5e-05,
-      "loss": 1.2615,
       "step": 8
     },
     {
       "epoch": 0.09,
-      "grad_norm": 0.05126953125,
-      "learning_rate": 0.0001,
-      "loss": 1.2386,
       "step": 16
     },
     {
       "epoch": 0.14,
-      "grad_norm": 0.0712890625,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 1.0635,
       "step": 24
     },
     {
       "epoch": 0.19,
-      "grad_norm": 0.055419921875,
-      "learning_rate": 0.0002,
-      "loss": 0.8635,
       "step": 32
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.6946206092834473,
-      "eval_runtime": 2.9198,
-      "eval_samples_per_second": 16.44,
-      "eval_steps_per_second": 2.055,
       "step": 32
     },
     {
       "epoch": 0.23,
-      "grad_norm": 0.05810546875,
-      "learning_rate": 0.00019666666666666666,
-      "loss": 0.7168,
       "step": 40
     },
     {
       "epoch": 0.28,
-      "grad_norm": 0.052490234375,
-      "learning_rate": 0.00019333333333333333,
-      "loss": 0.68,
       "step": 48
     },
     {
       "epoch": 0.33,
-      "grad_norm": 0.058349609375,
-      "learning_rate": 0.00019,
-      "loss": 0.6411,
       "step": 56
     },
     {
       "epoch": 0.38,
-      "grad_norm": 0.0771484375,
-      "learning_rate": 0.0001866666666666667,
-      "loss": 0.6265,
       "step": 64
     },
     {
       "epoch": 0.38,
-      "eval_loss": 0.5298518538475037,
-      "eval_runtime": 2.2273,
-      "eval_samples_per_second": 21.551,
-      "eval_steps_per_second": 2.694,
       "step": 64
     },
     {
       "epoch": 0.42,
-      "grad_norm": 0.05029296875,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.601,
       "step": 72
     },
     {
       "epoch": 0.47,
-      "grad_norm": 0.04638671875,
-      "learning_rate": 0.00018,
-      "loss": 0.5792,
       "step": 80
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.048828125,
-      "learning_rate": 0.00017666666666666666,
-      "loss": 0.5439,
       "step": 88
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.0595703125,
-      "learning_rate": 0.00017333333333333334,
-      "loss": 0.5546,
       "step": 96
     },
     {
       "epoch": 0.56,
-      "eval_loss": 0.48418930172920227,
-      "eval_runtime": 2.2276,
-      "eval_samples_per_second": 21.548,
-      "eval_steps_per_second": 2.693,
       "step": 96
     },
     {
       "epoch": 0.61,
-      "grad_norm": 0.047119140625,
-      "learning_rate": 0.00017,
-      "loss": 0.5473,
       "step": 104
     },
     {
       "epoch": 0.66,
-      "grad_norm": 0.0478515625,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 0.5263,
       "step": 112
     },
     {
       "epoch": 0.7,
-      "grad_norm": 0.04833984375,
-      "learning_rate": 0.00016333333333333334,
-      "loss": 0.5478,
       "step": 120
     },
     {
       "epoch": 0.75,
-      "grad_norm": 0.046142578125,
-      "learning_rate": 0.00016,
-      "loss": 0.5179,
       "step": 128
     },
     {
       "epoch": 0.75,
-      "eval_loss": 0.4604620039463043,
-      "eval_runtime": 2.2312,
-      "eval_samples_per_second": 21.513,
-      "eval_steps_per_second": 2.689,
       "step": 128
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.044677734375,
-      "learning_rate": 0.00015666666666666666,
-      "loss": 0.515,
       "step": 136
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.051513671875,
-      "learning_rate": 0.00015333333333333334,
-      "loss": 0.4951,
       "step": 144
     },
     {
       "epoch": 0.89,
-      "grad_norm": 0.05615234375,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 0.4928,
       "step": 152
     },
     {
       "epoch": 0.94,
-      "grad_norm": 0.048095703125,
-      "learning_rate": 0.00014666666666666666,
-      "loss": 0.4945,
       "step": 160
     },
     {
       "epoch": 0.94,
-      "eval_loss": 0.4465566575527191,
-      "eval_runtime": 2.2334,
-      "eval_samples_per_second": 21.492,
-      "eval_steps_per_second": 2.686,
       "step": 160
     },
     {
       "epoch": 0.99,
-      "grad_norm": 0.05224609375,
-      "learning_rate": 0.00014333333333333334,
-      "loss": 0.4973,
       "step": 168
     },
     {
       "epoch": 1.03,
-      "grad_norm": 0.06494140625,
-      "learning_rate": 0.00014,
-      "loss": 0.5055,
       "step": 176
     },
     {
       "epoch": 1.08,
-      "grad_norm": 0.04931640625,
-      "learning_rate": 0.00013666666666666666,
-      "loss": 0.4883,
       "step": 184
     },
     {
       "epoch": 1.13,
-      "grad_norm": 0.05224609375,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 0.4754,
       "step": 192
     },
     {
       "epoch": 1.13,
-      "eval_loss": 0.4364134967327118,
-      "eval_runtime": 2.2275,
-      "eval_samples_per_second": 21.549,
-      "eval_steps_per_second": 2.694,
       "step": 192
     },
     {
       "epoch": 1.17,
-      "grad_norm": 0.05615234375,
-      "learning_rate": 0.00013000000000000002,
-      "loss": 0.474,
       "step": 200
     },
     {
       "epoch": 1.22,
-      "grad_norm": 0.056396484375,
-      "learning_rate": 0.00012666666666666666,
-      "loss": 0.5049,
       "step": 208
     },
     {
       "epoch": 1.27,
-      "grad_norm": 0.0595703125,
-      "learning_rate": 0.00012333333333333334,
-      "loss": 0.4742,
       "step": 216
     },
     {
       "epoch": 1.31,
-      "grad_norm": 0.05859375,
-      "learning_rate": 0.00012,
-      "loss": 0.4592,
       "step": 224
     },
     {
       "epoch": 1.31,
-      "eval_loss": 0.42712247371673584,
-      "eval_runtime": 2.2283,
-      "eval_samples_per_second": 21.541,
-      "eval_steps_per_second": 2.693,
       "step": 224
     },
     {
       "epoch": 1.36,
-      "grad_norm": 0.0537109375,
-      "learning_rate": 0.00011666666666666668,
-      "loss": 0.4916,
       "step": 232
     },
     {
       "epoch": 1.41,
-      "grad_norm": 0.056884765625,
-      "learning_rate": 0.00011333333333333334,
-      "loss": 0.471,
       "step": 240
     },
     {
       "epoch": 1.45,
-      "grad_norm": 0.052734375,
-      "learning_rate": 0.00011000000000000002,
-      "loss": 0.4542,
       "step": 248
     },
     {
       "epoch": 1.5,
-      "grad_norm": 0.060302734375,
-      "learning_rate": 0.00010666666666666667,
-      "loss": 0.4854,
       "step": 256
     },
     {
       "epoch": 1.5,
-      "eval_loss": 0.4222320020198822,
-      "eval_runtime": 2.2384,
-      "eval_samples_per_second": 21.444,
-      "eval_steps_per_second": 2.681,
       "step": 256
     },
     {
       "epoch": 1.55,
-      "grad_norm": 0.055419921875,
-      "learning_rate": 0.00010333333333333334,
-      "loss": 0.4647,
       "step": 264
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.06201171875,
-      "learning_rate": 0.0001,
-      "loss": 0.4656,
       "step": 272
     },
     {
       "epoch": 1.64,
-      "grad_norm": 0.06005859375,
-      "learning_rate": 9.666666666666667e-05,
-      "loss": 0.4607,
       "step": 280
     },
     {
       "epoch": 1.69,
-      "grad_norm": 0.0595703125,
-      "learning_rate": 9.333333333333334e-05,
-      "loss": 0.4715,
       "step": 288
     },
     {
       "epoch": 1.69,
-      "eval_loss": 0.41570091247558594,
-      "eval_runtime": 2.2285,
-      "eval_samples_per_second": 21.539,
-      "eval_steps_per_second": 2.692,
       "step": 288
     },
     {
       "epoch": 1.74,
-      "grad_norm": 0.0498046875,
-      "learning_rate": 9e-05,
-      "loss": 0.4962,
       "step": 296
     },
     {
       "epoch": 1.78,
-      "grad_norm": 0.06494140625,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 0.4599,
       "step": 304
     },
     {
       "epoch": 1.83,
-      "grad_norm": 0.0537109375,
-      "learning_rate": 8.333333333333334e-05,
-      "loss": 0.4805,
       "step": 312
     },
     {
       "epoch": 1.88,
-      "grad_norm": 0.0654296875,
-      "learning_rate": 8e-05,
-      "loss": 0.4645,
       "step": 320
     },
     {
       "epoch": 1.88,
-      "eval_loss": 0.41148829460144043,
-      "eval_runtime": 2.2319,
-      "eval_samples_per_second": 21.506,
-      "eval_steps_per_second": 2.688,
       "step": 320
     },
     {
       "epoch": 1.92,
-      "grad_norm": 0.052001953125,
-      "learning_rate": 7.666666666666667e-05,
-      "loss": 0.4705,
       "step": 328
     },
     {
       "epoch": 1.97,
-      "grad_norm": 0.059326171875,
-      "learning_rate": 7.333333333333333e-05,
-      "loss": 0.4583,
       "step": 336
     },
     {
       "epoch": 2.02,
-      "grad_norm": 0.053466796875,
-      "learning_rate": 7e-05,
-      "loss": 0.4627,
       "step": 344
     },
     {
       "epoch": 2.06,
-      "grad_norm": 0.06201171875,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.4541,
       "step": 352
     },
     {
       "epoch": 2.06,
-      "eval_loss": 0.4108574390411377,
-      "eval_runtime": 2.2294,
-      "eval_samples_per_second": 21.53,
-      "eval_steps_per_second": 2.691,
       "step": 352
     },
     {
       "epoch": 2.11,
-      "grad_norm": 0.05712890625,
-      "learning_rate": 6.333333333333333e-05,
-      "loss": 0.4362,
       "step": 360
     },
     {
       "epoch": 2.16,
-      "grad_norm": 0.0556640625,
-      "learning_rate": 6e-05,
-      "loss": 0.4395,
       "step": 368
     },
     {
       "epoch": 2.21,
-      "grad_norm": 0.052978515625,
-      "learning_rate": 5.666666666666667e-05,
-      "loss": 0.4489,
       "step": 376
     },
     {
       "epoch": 2.25,
-      "grad_norm": 0.07177734375,
-      "learning_rate": 5.333333333333333e-05,
-      "loss": 0.4748,
       "step": 384
     },
     {
       "epoch": 2.25,
-      "eval_loss": 0.40746060013771057,
-      "eval_runtime": 2.2303,
-      "eval_samples_per_second": 21.522,
-      "eval_steps_per_second": 2.69,
       "step": 384
     },
     {
       "epoch": 2.3,
-      "grad_norm": 0.061767578125,
-      "learning_rate": 5e-05,
-      "loss": 0.462,
       "step": 392
     },
     {
       "epoch": 2.35,
-      "grad_norm": 0.05810546875,
-      "learning_rate": 4.666666666666667e-05,
-      "loss": 0.4424,
       "step": 400
     },
     {
       "epoch": 2.39,
-      "grad_norm": 0.059326171875,
-      "learning_rate": 4.3333333333333334e-05,
-      "loss": 0.4474,
       "step": 408
     },
     {
       "epoch": 2.44,
-      "grad_norm": 0.058837890625,
-      "learning_rate": 4e-05,
-      "loss": 0.4552,
       "step": 416
     },
     {
       "epoch": 2.44,
-      "eval_loss": 0.4058319628238678,
-      "eval_runtime": 2.2336,
-      "eval_samples_per_second": 21.49,
-      "eval_steps_per_second": 2.686,
       "step": 416
     },
     {
       "epoch": 2.49,
-      "grad_norm": 0.0654296875,
-      "learning_rate": 3.6666666666666666e-05,
-      "loss": 0.46,
       "step": 424
     },
     {
       "epoch": 2.53,
-      "grad_norm": 0.059326171875,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.421,
       "step": 432
     },
     {
       "epoch": 2.58,
-      "grad_norm": 0.05810546875,
-      "learning_rate": 3e-05,
-      "loss": 0.4343,
       "step": 440
     },
     {
       "epoch": 2.63,
-      "grad_norm": 0.056640625,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 0.4545,
       "step": 448
     },
     {
       "epoch": 2.63,
-      "eval_loss": 0.405117005109787,
-      "eval_runtime": 2.2284,
-      "eval_samples_per_second": 21.54,
-      "eval_steps_per_second": 2.692,
       "step": 448
     },
     {
       "epoch": 2.67,
-      "grad_norm": 0.06005859375,
-      "learning_rate": 2.3333333333333336e-05,
-      "loss": 0.4287,
       "step": 456
     },
     {
       "epoch": 2.72,
-      "grad_norm": 0.06201171875,
-      "learning_rate": 2e-05,
-      "loss": 0.4356,
       "step": 464
     },
     {
       "epoch": 2.77,
-      "grad_norm": 0.060791015625,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.4757,
       "step": 472
     },
     {
       "epoch": 2.82,
-      "grad_norm": 0.056884765625,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.4206,
       "step": 480
     },
     {
       "epoch": 2.82,
-      "eval_loss": 0.4043344557285309,
-      "eval_runtime": 2.2287,
-      "eval_samples_per_second": 21.537,
-      "eval_steps_per_second": 2.692,
       "step": 480
     },
     {
       "epoch": 2.86,
-      "grad_norm": 0.05712890625,
-      "learning_rate": 1e-05,
-      "loss": 0.4375,
       "step": 488
     },
     {
       "epoch": 2.91,
-      "grad_norm": 0.060546875,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.44,
       "step": 496
     },
     {
       "epoch": 2.96,
-      "grad_norm": 0.058837890625,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.4578,
       "step": 504
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.0546875,
       "learning_rate": 0.0,
-      "loss": 0.4283,
       "step": 512
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.40400779247283936,
-      "eval_runtime": 2.2267,
-      "eval_samples_per_second": 21.557,
-      "eval_steps_per_second": 2.695,
       "step": 512
     },
     {
       "epoch": 3.0,
       "step": 512,
-      "total_flos": 1.043777451546624e+17,
-      "train_loss": 0.5280804093927145,
-      "train_runtime": 1170.0816,
-      "train_samples_per_second": 7.001,
-      "train_steps_per_second": 0.438
     }
   ],
   "logging_steps": 8,
@@ -599,7 +599,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 32,
-  "total_flos": 1.043777451546624e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.383393794298172,
   "best_model_checkpoint": "outputs/checkpoint-512",
   "epoch": 3.002932551319648,
   "eval_steps": 32,
   "log_history": [
     {
       "epoch": 0.05,
+      "grad_norm": 0.125,
+      "learning_rate": 0.000125,
+      "loss": 1.2564,
       "step": 8
     },
     {
       "epoch": 0.09,
+      "grad_norm": 0.1337890625,
+      "learning_rate": 0.00025,
+      "loss": 1.1071,
       "step": 16
     },
     {
       "epoch": 0.14,
+      "grad_norm": 0.1181640625,
+      "learning_rate": 0.000375,
+      "loss": 0.8351,
       "step": 24
     },
     {
       "epoch": 0.19,
+      "grad_norm": 0.11181640625,
+      "learning_rate": 0.0005,
+      "loss": 0.709,
       "step": 32
     },
     {
       "epoch": 0.19,
+      "eval_loss": 0.5833926796913147,
+      "eval_runtime": 2.7901,
+      "eval_samples_per_second": 17.203,
+      "eval_steps_per_second": 2.15,
       "step": 32
     },
     {
       "epoch": 0.23,
+      "grad_norm": 0.1064453125,
+      "learning_rate": 0.0004916666666666666,
+      "loss": 0.6104,
       "step": 40
     },
     {
       "epoch": 0.28,
+      "grad_norm": 0.10693359375,
+      "learning_rate": 0.00048333333333333334,
+      "loss": 0.5962,
       "step": 48
     },
     {
       "epoch": 0.33,
+      "grad_norm": 0.099609375,
+      "learning_rate": 0.000475,
+      "loss": 0.5696,
       "step": 56
     },
     {
       "epoch": 0.38,
+      "grad_norm": 0.13671875,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.5678,
       "step": 64
     },
     {
       "epoch": 0.38,
+      "eval_loss": 0.47890207171440125,
+      "eval_runtime": 2.176,
+      "eval_samples_per_second": 22.059,
+      "eval_steps_per_second": 2.757,
       "step": 64
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 0.0004583333333333333,
+      "loss": 0.5528,
       "step": 72
     },
     {
       "epoch": 0.47,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.535,
       "step": 80
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.0771484375,
+      "learning_rate": 0.00044166666666666665,
+      "loss": 0.5049,
       "step": 88
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.07275390625,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 0.5165,
       "step": 96
     },
     {
       "epoch": 0.56,
+      "eval_loss": 0.44684532284736633,
+      "eval_runtime": 2.1779,
+      "eval_samples_per_second": 22.04,
+      "eval_steps_per_second": 2.755,
       "step": 96
     },
     {
       "epoch": 0.61,
+      "grad_norm": 0.068359375,
+      "learning_rate": 0.000425,
+      "loss": 0.5133,
       "step": 104
     },
     {
       "epoch": 0.66,
+      "grad_norm": 0.076171875,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 0.4931,
       "step": 112
     },
     {
       "epoch": 0.7,
+      "grad_norm": 0.07373046875,
+      "learning_rate": 0.00040833333333333336,
+      "loss": 0.5168,
       "step": 120
     },
     {
       "epoch": 0.75,
+      "grad_norm": 0.06787109375,
+      "learning_rate": 0.0004,
+      "loss": 0.4926,
       "step": 128
     },
     {
       "epoch": 0.75,
+      "eval_loss": 0.42885932326316833,
+      "eval_runtime": 2.1761,
+      "eval_samples_per_second": 22.058,
+      "eval_steps_per_second": 2.757,
       "step": 128
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.07080078125,
+      "learning_rate": 0.0003916666666666667,
+      "loss": 0.4843,
       "step": 136
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.0712890625,
+      "learning_rate": 0.00038333333333333334,
+      "loss": 0.4697,
       "step": 144
     },
     {
       "epoch": 0.89,
+      "grad_norm": 0.08056640625,
+      "learning_rate": 0.000375,
+      "loss": 0.4681,
       "step": 152
     },
     {
       "epoch": 0.94,
+      "grad_norm": 0.0732421875,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 0.4667,
       "step": 160
     },
     {
       "epoch": 0.94,
+      "eval_loss": 0.41727420687675476,
+      "eval_runtime": 2.1762,
+      "eval_samples_per_second": 22.057,
+      "eval_steps_per_second": 2.757,
       "step": 160
     },
     {
       "epoch": 0.99,
+      "grad_norm": 0.07177734375,
+      "learning_rate": 0.00035833333333333333,
+      "loss": 0.4721,
       "step": 168
     },
     {
       "epoch": 1.03,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 0.00035,
+      "loss": 0.471,
       "step": 176
     },
     {
       "epoch": 1.08,
+      "grad_norm": 0.07421875,
+      "learning_rate": 0.00034166666666666666,
+      "loss": 0.4544,
       "step": 184
     },
     {
       "epoch": 1.13,
+      "grad_norm": 0.076171875,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.443,
       "step": 192
     },
     {
       "epoch": 1.13,
+      "eval_loss": 0.4128858149051666,
+      "eval_runtime": 2.1785,
+      "eval_samples_per_second": 22.033,
+      "eval_steps_per_second": 2.754,
       "step": 192
     },
     {
       "epoch": 1.17,
+      "grad_norm": 0.08251953125,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.4423,
       "step": 200
     },
     {
       "epoch": 1.22,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 0.00031666666666666665,
+      "loss": 0.4704,
       "step": 208
     },
     {
       "epoch": 1.27,
+      "grad_norm": 0.07763671875,
+      "learning_rate": 0.00030833333333333337,
+      "loss": 0.4449,
       "step": 216
     },
     {
       "epoch": 1.31,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 0.0003,
+      "loss": 0.4313,
       "step": 224
     },
     {
       "epoch": 1.31,
+      "eval_loss": 0.4045116901397705,
+      "eval_runtime": 2.1781,
+      "eval_samples_per_second": 22.038,
+      "eval_steps_per_second": 2.755,
       "step": 224
     },
     {
       "epoch": 1.36,
+      "grad_norm": 0.07666015625,
+      "learning_rate": 0.0002916666666666667,
+      "loss": 0.4619,
       "step": 232
     },
     {
       "epoch": 1.41,
+      "grad_norm": 0.08154296875,
+      "learning_rate": 0.00028333333333333335,
+      "loss": 0.4435,
       "step": 240
     },
     {
       "epoch": 1.45,
+      "grad_norm": 0.07763671875,
+      "learning_rate": 0.000275,
+      "loss": 0.4272,
       "step": 248
     },
     {
       "epoch": 1.5,
+      "grad_norm": 0.083984375,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 0.4554,
       "step": 256
     },
     {
       "epoch": 1.5,
+      "eval_loss": 0.39897629618644714,
+      "eval_runtime": 2.177,
+      "eval_samples_per_second": 22.049,
+      "eval_steps_per_second": 2.756,
       "step": 256
     },
     {
       "epoch": 1.55,
+      "grad_norm": 0.07373046875,
+      "learning_rate": 0.00025833333333333334,
+      "loss": 0.438,
       "step": 264
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 0.00025,
+      "loss": 0.438,
       "step": 272
     },
     {
       "epoch": 1.64,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 0.00024166666666666667,
+      "loss": 0.4332,
       "step": 280
     },
     {
       "epoch": 1.69,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 0.4453,
       "step": 288
     },
     {
       "epoch": 1.69,
+      "eval_loss": 0.39246222376823425,
+      "eval_runtime": 2.1791,
+      "eval_samples_per_second": 22.027,
+      "eval_steps_per_second": 2.753,
       "step": 288
     },
     {
       "epoch": 1.74,
+      "grad_norm": 0.07080078125,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.468,
       "step": 296
     },
     {
       "epoch": 1.78,
+      "grad_norm": 0.09423828125,
+      "learning_rate": 0.00021666666666666668,
+      "loss": 0.4311,
       "step": 304
     },
     {
       "epoch": 1.83,
+      "grad_norm": 0.07373046875,
+      "learning_rate": 0.00020833333333333335,
+      "loss": 0.4537,
       "step": 312
     },
     {
       "epoch": 1.88,
+      "grad_norm": 0.08984375,
+      "learning_rate": 0.0002,
+      "loss": 0.4369,
       "step": 320
     },
     {
       "epoch": 1.88,
+      "eval_loss": 0.3888448178768158,
+      "eval_runtime": 2.1807,
+      "eval_samples_per_second": 22.011,
+      "eval_steps_per_second": 2.751,
       "step": 320
     },
     {
       "epoch": 1.92,
+      "grad_norm": 0.0693359375,
+      "learning_rate": 0.00019166666666666667,
+      "loss": 0.443,
       "step": 328
     },
     {
       "epoch": 1.97,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 0.4328,
       "step": 336
     },
     {
       "epoch": 2.02,
+      "grad_norm": 0.0751953125,
+      "learning_rate": 0.000175,
+      "loss": 0.43,
       "step": 344
     },
     {
       "epoch": 2.06,
+      "grad_norm": 0.087890625,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.4169,
       "step": 352
     },
     {
       "epoch": 2.06,
+      "eval_loss": 0.3901583254337311,
+      "eval_runtime": 2.1777,
+      "eval_samples_per_second": 22.042,
+      "eval_steps_per_second": 2.755,
       "step": 352
     },
     {
       "epoch": 2.11,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 0.00015833333333333332,
+      "loss": 0.3996,
       "step": 360
     },
     {
       "epoch": 2.16,
+      "grad_norm": 0.08154296875,
+      "learning_rate": 0.00015,
+      "loss": 0.4025,
       "step": 368
     },
     {
       "epoch": 2.21,
+      "grad_norm": 0.0791015625,
+      "learning_rate": 0.00014166666666666668,
+      "loss": 0.4098,
       "step": 376
     },
     {
       "epoch": 2.25,
+      "grad_norm": 0.0947265625,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.4347,
       "step": 384
     },
     {
       "epoch": 2.25,
+      "eval_loss": 0.38746240735054016,
+      "eval_runtime": 2.1784,
+      "eval_samples_per_second": 22.035,
+      "eval_steps_per_second": 2.754,
       "step": 384
     },
     {
       "epoch": 2.3,
+      "grad_norm": 0.0859375,
+      "learning_rate": 0.000125,
+      "loss": 0.4234,
       "step": 392
     },
     {
       "epoch": 2.35,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 0.00011666666666666667,
+      "loss": 0.4054,
       "step": 400
     },
     {
       "epoch": 2.39,
+      "grad_norm": 0.08984375,
+      "learning_rate": 0.00010833333333333334,
+      "loss": 0.4117,
       "step": 408
     },
     {
       "epoch": 2.44,
+      "grad_norm": 0.08935546875,
+      "learning_rate": 0.0001,
+      "loss": 0.4163,
       "step": 416
     },
     {
       "epoch": 2.44,
+      "eval_loss": 0.38652801513671875,
+      "eval_runtime": 2.1766,
+      "eval_samples_per_second": 22.053,
+      "eval_steps_per_second": 2.757,
       "step": 416
     },
     {
       "epoch": 2.49,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.4216,
       "step": 424
     },
     {
       "epoch": 2.53,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.3861,
       "step": 432
     },
     {
       "epoch": 2.58,
+      "grad_norm": 0.087890625,
+      "learning_rate": 7.5e-05,
+      "loss": 0.3994,
       "step": 440
     },
     {
       "epoch": 2.63,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.4171,
       "step": 448
     },
     {
       "epoch": 2.63,
+      "eval_loss": 0.38501664996147156,
+      "eval_runtime": 2.1793,
+      "eval_samples_per_second": 22.025,
+      "eval_steps_per_second": 2.753,
       "step": 448
     },
     {
       "epoch": 2.67,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 5.833333333333333e-05,
+      "loss": 0.3924,
       "step": 456
     },
     {
       "epoch": 2.72,
+      "grad_norm": 0.09228515625,
+      "learning_rate": 5e-05,
+      "loss": 0.4003,
       "step": 464
     },
     {
       "epoch": 2.77,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 4.1666666666666665e-05,
+      "loss": 0.4366,
       "step": 472
     },
     {
       "epoch": 2.82,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.3856,
       "step": 480
     },
     {
       "epoch": 2.82,
+      "eval_loss": 0.3836025893688202,
+      "eval_runtime": 2.1811,
+      "eval_samples_per_second": 22.008,
+      "eval_steps_per_second": 2.751,
       "step": 480
     },
     {
       "epoch": 2.86,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3991,
       "step": 488
     },
     {
       "epoch": 2.91,
+      "grad_norm": 0.09033203125,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.402,
       "step": 496
     },
     {
       "epoch": 2.96,
+      "grad_norm": 0.08935546875,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4184,
       "step": 504
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.0830078125,
       "learning_rate": 0.0,
+      "loss": 0.3914,
       "step": 512
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.383393794298172,
+      "eval_runtime": 2.1833,
+      "eval_samples_per_second": 21.985,
+      "eval_steps_per_second": 2.748,
       "step": 512
     },
     {
       "epoch": 3.0,
       "step": 512,
+      "total_flos": 9.863515762146509e+16,
+      "train_loss": 0.48598923115059733,
+      "train_runtime": 1129.8879,
+      "train_samples_per_second": 7.25,
+      "train_steps_per_second": 0.453
     }
   ],
   "logging_steps": 8,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 32,
+  "total_flos": 9.863515762146509e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0299eef0636c237944e82b27fc5f997495b228ce538683377746071e82794119
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c822435a140bbc9ba485bc690b26c593635fea3e2667caf12b34f417b55a6ad
 size 4920