GlycerinLOL
/

LLM_Teached_Bart_From_Scratch

@@ -1,7 +1,7 @@
 {
-    "epoch": 3.99,
-    "train_loss": 1.6275942337818634,
-    "train_runtime": 5933.9925,
-    "train_samples_per_second": 33.704,
-    "train_steps_per_second": 0.263
 }

 {
+    "epoch": 16.0,
+    "train_loss": 1.1567621652086957,
+    "train_runtime": 40538.4288,
+    "train_samples_per_second": 19.734,
+    "train_steps_per_second": 0.206
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 3.99,
-    "train_loss": 1.6275942337818634,
-    "train_runtime": 5933.9925,
-    "train_samples_per_second": 33.704,
-    "train_steps_per_second": 0.263
 }

 {
+    "epoch": 16.0,
+    "train_loss": 1.1567621652086957,
+    "train_runtime": 40538.4288,
+    "train_samples_per_second": 19.734,
+    "train_steps_per_second": 0.206
 }

trainer_state.json CHANGED Viewed

@@ -1,112 +1,382 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9923224568138194,
   "eval_steps": 500,
-  "global_step": 1560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_f1": 0.8966,
-      "eval_gen_len": 19.970909090909092,
-      "eval_loss": 1.5708835124969482,
-      "eval_precision": 0.9093,
-      "eval_recall": 0.8846,
-      "eval_rouge1": 0.4119,
-      "eval_rouge2": 0.2002,
-      "eval_rougeL": 0.3529,
-      "eval_rougeLsum": 0.3527,
-      "eval_runtime": 231.9368,
-      "eval_samples_per_second": 11.857,
-      "eval_steps_per_second": 0.742,
-      "step": 390
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 1.3589743589743592e-05,
-      "loss": 1.8155,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_f1": 0.9003,
-      "eval_gen_len": 19.918545454545455,
-      "eval_loss": 1.5360783338546753,
-      "eval_precision": 0.9123,
-      "eval_recall": 0.8889,
-      "eval_rouge1": 0.4331,
-      "eval_rouge2": 0.2157,
-      "eval_rougeL": 0.3717,
-      "eval_rougeLsum": 0.3717,
-      "eval_runtime": 228.1491,
-      "eval_samples_per_second": 12.054,
-      "eval_steps_per_second": 0.754,
-      "step": 781
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 7.17948717948718e-06,
-      "loss": 1.5875,
       "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.899,
-      "eval_gen_len": 19.954545454545453,
-      "eval_loss": 1.5030012130737305,
-      "eval_precision": 0.9117,
-      "eval_recall": 0.8871,
-      "eval_rouge1": 0.4263,
-      "eval_rouge2": 0.2129,
-      "eval_rougeL": 0.3671,
-      "eval_rougeLsum": 0.3673,
-      "eval_runtime": 228.8181,
-      "eval_samples_per_second": 12.018,
-      "eval_steps_per_second": 0.752,
-      "step": 1172
     },
     {
       "epoch": 3.84,
-      "learning_rate": 7.692307692307694e-07,
-      "loss": 1.4978,
-      "step": 1500
     },
     {
-      "epoch": 3.99,
-      "eval_f1": 0.9002,
-      "eval_gen_len": 19.925454545454546,
-      "eval_loss": 1.499870777130127,
-      "eval_precision": 0.9125,
-      "eval_recall": 0.8885,
-      "eval_rouge1": 0.4331,
       "eval_rouge2": 0.2164,
-      "eval_rougeL": 0.3724,
-      "eval_rougeLsum": 0.3725,
-      "eval_runtime": 229.5833,
-      "eval_samples_per_second": 11.978,
-      "eval_steps_per_second": 0.749,
-      "step": 1560
-    },
-    {
-      "epoch": 3.99,
-      "step": 1560,
-      "total_flos": 2.163117129644114e+17,
-      "train_loss": 1.6275942337818634,
-      "train_runtime": 5933.9925,
-      "train_samples_per_second": 33.704,
-      "train_steps_per_second": 0.263
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1560,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 2.163117129644114e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.0,
   "eval_steps": 500,
+  "global_step": 8336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.96,
+      "learning_rate": 1.880038387715931e-05,
+      "loss": 1.836,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.8971,
+      "eval_gen_len": 19.974545454545453,
+      "eval_loss": 1.5560153722763062,
+      "eval_precision": 0.9105,
+      "eval_recall": 0.8843,
+      "eval_rouge1": 0.4155,
+      "eval_rouge2": 0.2028,
+      "eval_rougeL": 0.3561,
+      "eval_rougeLsum": 0.3559,
+      "eval_runtime": 315.2437,
+      "eval_samples_per_second": 8.723,
+      "eval_steps_per_second": 0.546,
+      "step": 521
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.760076775431862e-05,
+      "loss": 1.5951,
       "step": 1000
     },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.8997,
+      "eval_gen_len": 19.93527272727273,
+      "eval_loss": 1.5003960132598877,
+      "eval_precision": 0.9115,
+      "eval_recall": 0.8886,
+      "eval_rouge1": 0.4333,
+      "eval_rouge2": 0.2136,
+      "eval_rougeL": 0.3695,
+      "eval_rougeLsum": 0.3694,
+      "eval_runtime": 311.8452,
+      "eval_samples_per_second": 8.818,
+      "eval_steps_per_second": 0.552,
+      "step": 1042
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.6401151631477927e-05,
+      "loss": 1.469,
+      "step": 1500
+    },
     {
       "epoch": 3.0,
+      "eval_f1": 0.9001,
+      "eval_gen_len": 19.938545454545455,
+      "eval_loss": 1.4690784215927124,
+      "eval_precision": 0.912,
+      "eval_recall": 0.8888,
+      "eval_rouge1": 0.4355,
+      "eval_rouge2": 0.2176,
+      "eval_rougeL": 0.3729,
+      "eval_rougeLsum": 0.3728,
+      "eval_runtime": 312.4642,
+      "eval_samples_per_second": 8.801,
+      "eval_steps_per_second": 0.55,
+      "step": 1563
     },
     {
       "epoch": 3.84,
+      "learning_rate": 1.5201535508637238e-05,
+      "loss": 1.373,
+      "step": 2000
     },
     {
+      "epoch": 4.0,
+      "eval_f1": 0.9003,
+      "eval_gen_len": 19.964727272727274,
+      "eval_loss": 1.4657667875289917,
+      "eval_precision": 0.9137,
+      "eval_recall": 0.8877,
+      "eval_rouge1": 0.4311,
       "eval_rouge2": 0.2164,
+      "eval_rougeL": 0.3706,
+      "eval_rougeLsum": 0.3704,
+      "eval_runtime": 313.2326,
+      "eval_samples_per_second": 8.779,
+      "eval_steps_per_second": 0.549,
+      "step": 2084
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 1.4001919385796546e-05,
+      "loss": 1.2902,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.9008,
+      "eval_gen_len": 19.94981818181818,
+      "eval_loss": 1.4541645050048828,
+      "eval_precision": 0.9136,
+      "eval_recall": 0.8887,
+      "eval_rouge1": 0.4368,
+      "eval_rouge2": 0.2218,
+      "eval_rougeL": 0.3762,
+      "eval_rougeLsum": 0.376,
+      "eval_runtime": 313.1455,
+      "eval_samples_per_second": 8.782,
+      "eval_steps_per_second": 0.549,
+      "step": 2605
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 1.2802303262955855e-05,
+      "loss": 1.222,
+      "step": 3000
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.9018,
+      "eval_gen_len": 19.942545454545453,
+      "eval_loss": 1.458353042602539,
+      "eval_precision": 0.914,
+      "eval_recall": 0.8902,
+      "eval_rouge1": 0.4407,
+      "eval_rouge2": 0.223,
+      "eval_rougeL": 0.3802,
+      "eval_rougeLsum": 0.3798,
+      "eval_runtime": 312.4439,
+      "eval_samples_per_second": 8.802,
+      "eval_steps_per_second": 0.55,
+      "step": 3126
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 1.1602687140115163e-05,
+      "loss": 1.1655,
+      "step": 3500
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.9019,
+      "eval_gen_len": 19.932727272727274,
+      "eval_loss": 1.4708688259124756,
+      "eval_precision": 0.9145,
+      "eval_recall": 0.89,
+      "eval_rouge1": 0.4404,
+      "eval_rouge2": 0.2246,
+      "eval_rougeL": 0.3806,
+      "eval_rougeLsum": 0.3803,
+      "eval_runtime": 313.9664,
+      "eval_samples_per_second": 8.759,
+      "eval_steps_per_second": 0.548,
+      "step": 3647
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 1.0403071017274472e-05,
+      "loss": 1.11,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.9026,
+      "eval_gen_len": 19.908363636363635,
+      "eval_loss": 1.47238028049469,
+      "eval_precision": 0.9153,
+      "eval_recall": 0.8906,
+      "eval_rouge1": 0.4435,
+      "eval_rouge2": 0.2269,
+      "eval_rougeL": 0.383,
+      "eval_rougeLsum": 0.3828,
+      "eval_runtime": 312.3634,
+      "eval_samples_per_second": 8.804,
+      "eval_steps_per_second": 0.551,
+      "step": 4168
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 9.203454894433782e-06,
+      "loss": 1.0629,
+      "step": 4500
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.9028,
+      "eval_gen_len": 19.928,
+      "eval_loss": 1.485286831855774,
+      "eval_precision": 0.9155,
+      "eval_recall": 0.8908,
+      "eval_rouge1": 0.4431,
+      "eval_rouge2": 0.2273,
+      "eval_rougeL": 0.3832,
+      "eval_rougeLsum": 0.383,
+      "eval_runtime": 312.2978,
+      "eval_samples_per_second": 8.806,
+      "eval_steps_per_second": 0.551,
+      "step": 4689
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 8.003838771593091e-06,
+      "loss": 1.023,
+      "step": 5000
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.9021,
+      "eval_gen_len": 19.944,
+      "eval_loss": 1.503290057182312,
+      "eval_precision": 0.9152,
+      "eval_recall": 0.8897,
+      "eval_rouge1": 0.4409,
+      "eval_rouge2": 0.2247,
+      "eval_rougeL": 0.3819,
+      "eval_rougeLsum": 0.3818,
+      "eval_runtime": 312.2524,
+      "eval_samples_per_second": 8.807,
+      "eval_steps_per_second": 0.551,
+      "step": 5210
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 6.8042226487524e-06,
+      "loss": 0.9862,
+      "step": 5500
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.9034,
+      "eval_gen_len": 19.912363636363636,
+      "eval_loss": 1.5074084997177124,
+      "eval_precision": 0.9158,
+      "eval_recall": 0.8916,
+      "eval_rouge1": 0.4479,
+      "eval_rouge2": 0.2278,
+      "eval_rougeL": 0.3862,
+      "eval_rougeLsum": 0.386,
+      "eval_runtime": 313.5934,
+      "eval_samples_per_second": 8.769,
+      "eval_steps_per_second": 0.548,
+      "step": 5731
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 5.6046065259117085e-06,
+      "loss": 0.957,
+      "step": 6000
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.903,
+      "eval_gen_len": 19.90327272727273,
+      "eval_loss": 1.518417239189148,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8909,
+      "eval_rouge1": 0.4461,
+      "eval_rouge2": 0.2264,
+      "eval_rougeL": 0.3846,
+      "eval_rougeLsum": 0.3847,
+      "eval_runtime": 314.9612,
+      "eval_samples_per_second": 8.731,
+      "eval_steps_per_second": 0.546,
+      "step": 6252
+    },
+    {
+      "epoch": 12.48,
+      "learning_rate": 4.404990403071018e-06,
+      "loss": 0.9315,
+      "step": 6500
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.9031,
+      "eval_gen_len": 19.908363636363635,
+      "eval_loss": 1.5269190073013306,
+      "eval_precision": 0.9156,
+      "eval_recall": 0.8912,
+      "eval_rouge1": 0.4473,
+      "eval_rouge2": 0.2284,
+      "eval_rougeL": 0.386,
+      "eval_rougeLsum": 0.3858,
+      "eval_runtime": 311.2352,
+      "eval_samples_per_second": 8.836,
+      "eval_steps_per_second": 0.553,
+      "step": 6773
+    },
+    {
+      "epoch": 13.44,
+      "learning_rate": 3.2053742802303266e-06,
+      "loss": 0.9093,
+      "step": 7000
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.9029,
+      "eval_gen_len": 19.913454545454545,
+      "eval_loss": 1.5310986042022705,
+      "eval_precision": 0.9155,
+      "eval_recall": 0.8909,
+      "eval_rouge1": 0.4453,
+      "eval_rouge2": 0.2273,
+      "eval_rougeL": 0.3846,
+      "eval_rougeLsum": 0.3843,
+      "eval_runtime": 313.2169,
+      "eval_samples_per_second": 8.78,
+      "eval_steps_per_second": 0.549,
+      "step": 7294
+    },
+    {
+      "epoch": 14.4,
+      "learning_rate": 2.0057581573896352e-06,
+      "loss": 0.8927,
+      "step": 7500
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.9029,
+      "eval_gen_len": 19.906545454545455,
+      "eval_loss": 1.5351076126098633,
+      "eval_precision": 0.9156,
+      "eval_recall": 0.8909,
+      "eval_rouge1": 0.4457,
+      "eval_rouge2": 0.2267,
+      "eval_rougeL": 0.3842,
+      "eval_rougeLsum": 0.384,
+      "eval_runtime": 314.8443,
+      "eval_samples_per_second": 8.734,
+      "eval_steps_per_second": 0.546,
+      "step": 7815
+    },
+    {
+      "epoch": 15.36,
+      "learning_rate": 8.061420345489445e-07,
+      "loss": 0.8773,
+      "step": 8000
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.9034,
+      "eval_gen_len": 19.900727272727273,
+      "eval_loss": 1.5434002876281738,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8916,
+      "eval_rouge1": 0.4476,
+      "eval_rouge2": 0.2292,
+      "eval_rougeL": 0.3868,
+      "eval_rougeLsum": 0.3865,
+      "eval_runtime": 313.163,
+      "eval_samples_per_second": 8.781,
+      "eval_steps_per_second": 0.549,
+      "step": 8336
+    },
+    {
+      "epoch": 16.0,
+      "step": 8336,
+      "total_flos": 1.7130441774590853e+18,
+      "train_loss": 1.1567621652086957,
+      "train_runtime": 40538.4288,
+      "train_samples_per_second": 19.734,
+      "train_steps_per_second": 0.206
     }
   ],
   "logging_steps": 500,
+  "max_steps": 8336,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
   "save_steps": 500,
+  "total_flos": 1.7130441774590853e+18,
+  "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null
 }