Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

checkpoint-200/adapter_config.json +2 -2
checkpoint-200/adapter_model.bin +1 -1
checkpoint-200/adapter_model/adapter_model/adapter_config.json +2 -2
checkpoint-200/adapter_model/adapter_model/adapter_model.bin +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/trainer_state.json +1186 -106
checkpoint-200/training_args.bin +2 -2

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -14,12 +14,12 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "up_proj",
     "k_proj",
     "down_proj",
     "gate_proj",
     "q_proj",
-    "v_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

   "r": 64,
   "revision": null,
   "target_modules": [
     "k_proj",
+    "v_proj",
+    "up_proj",
     "down_proj",
     "gate_proj",
     "q_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

checkpoint-200/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4367c401c89a79a05d3dd33111115f19d78c07e676b04e3c31bc7389f2df29d
 size 335706314

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2f2972ef860b34315e1a933412f3b52a410c8af6ce103c87bd7436e69b89294
 size 335706314

checkpoint-200/adapter_model/adapter_model/adapter_config.json CHANGED Viewed

@@ -14,12 +14,12 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "up_proj",
     "k_proj",
     "down_proj",
     "gate_proj",
     "q_proj",
-    "v_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

   "r": 64,
   "revision": null,
   "target_modules": [
     "k_proj",
+    "v_proj",
+    "up_proj",
     "down_proj",
     "gate_proj",
     "q_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

checkpoint-200/adapter_model/adapter_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4367c401c89a79a05d3dd33111115f19d78c07e676b04e3c31bc7389f2df29d
 size 335706314

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2f2972ef860b34315e1a933412f3b52a410c8af6ce103c87bd7436e69b89294
 size 335706314

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88f50d69d8b9d3cd933851f74dce3519a6f141d24cfcd112e1349eea1f827f41
 size 1342452986

 version https://git-lfs.github.com/spec/v1
+oid sha256:27d05ffc89ac964779de86cf007e925fe5865f965da80c3f9ff2907d1425bfd6
 size 1342452986

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46315242364c96ad27fe35db55773e3aa4d2abc2b71a1b7c362ba6b4ccfc6653
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:da18bbc1eac753fd909d23018d555b3a320290796844675ead4cbb396314d7b8
 size 14180

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.7200608849525452,
   "best_model_checkpoint": "experts/mistralic-expert-9/checkpoint-200",
-  "epoch": 0.09625797136325352,
   "eval_steps": 200,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -11,200 +11,1280 @@
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
-      "loss": 0.7899,
       "step": 10
     },
     {
-      "epoch": 0.01,
       "learning_rate": 0.0002,
-      "loss": 0.7897,
-      "step": 20
     },
     {
-      "epoch": 0.01,
       "learning_rate": 0.0002,
-      "loss": 0.7499,
-      "step": 30
     },
     {
-      "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 0.7455,
-      "step": 40
     },
     {
-      "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 0.7387,
-      "step": 50
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
-      "loss": 0.7331,
-      "step": 60
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
-      "loss": 0.7296,
-      "step": 70
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 0.729,
-      "step": 80
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 0.741,
-      "step": 90
     },
     {
-      "epoch": 0.05,
       "learning_rate": 0.0002,
-      "loss": 0.7803,
-      "step": 100
     },
     {
-      "epoch": 0.05,
       "learning_rate": 0.0002,
-      "loss": 0.7286,
-      "step": 110
     },
     {
-      "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 0.7689,
-      "step": 120
     },
     {
-      "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 0.6787,
-      "step": 130
     },
     {
-      "epoch": 0.07,
       "learning_rate": 0.0002,
-      "loss": 0.7264,
-      "step": 140
     },
     {
-      "epoch": 0.07,
       "learning_rate": 0.0002,
-      "loss": 0.7486,
-      "step": 150
     },
     {
-      "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 0.7315,
       "step": 160
     },
     {
-      "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 0.6814,
       "step": 170
     },
     {
-      "epoch": 0.09,
       "learning_rate": 0.0002,
-      "loss": 0.7104,
       "step": 180
     },
     {
-      "epoch": 0.09,
       "learning_rate": 0.0002,
-      "loss": 0.7133,
       "step": 190
     },
     {
-      "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 0.7104,
       "step": 200
     },
     {
-      "epoch": 0.1,
-      "eval_loss": 0.7200608849525452,
-      "eval_runtime": 135.0227,
-      "eval_samples_per_second": 7.406,
-      "eval_steps_per_second": 3.703,
       "step": 200
     },
     {
-      "epoch": 0.1,
-      "mmlu_eval_accuracy": 0.598134136806777,
       "mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
       "mmlu_eval_accuracy_anatomy": 0.5,
-      "mmlu_eval_accuracy_astronomy": 0.6875,
       "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
-      "mmlu_eval_accuracy_clinical_knowledge": 0.5862068965517241,
-      "mmlu_eval_accuracy_college_biology": 0.5,
-      "mmlu_eval_accuracy_college_chemistry": 0.375,
-      "mmlu_eval_accuracy_college_computer_science": 0.5454545454545454,
-      "mmlu_eval_accuracy_college_mathematics": 0.45454545454545453,
-      "mmlu_eval_accuracy_college_medicine": 0.5909090909090909,
-      "mmlu_eval_accuracy_college_physics": 0.5454545454545454,
-      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
-      "mmlu_eval_accuracy_conceptual_physics": 0.5769230769230769,
-      "mmlu_eval_accuracy_econometrics": 0.5,
-      "mmlu_eval_accuracy_electrical_engineering": 0.6875,
-      "mmlu_eval_accuracy_elementary_mathematics": 0.3902439024390244,
       "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
       "mmlu_eval_accuracy_global_facts": 0.3,
-      "mmlu_eval_accuracy_high_school_biology": 0.65625,
-      "mmlu_eval_accuracy_high_school_chemistry": 0.4090909090909091,
       "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
       "mmlu_eval_accuracy_high_school_european_history": 0.7777777777777778,
-      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
-      "mmlu_eval_accuracy_high_school_government_and_politics": 0.7142857142857143,
-      "mmlu_eval_accuracy_high_school_macroeconomics": 0.5813953488372093,
-      "mmlu_eval_accuracy_high_school_mathematics": 0.4482758620689655,
-      "mmlu_eval_accuracy_high_school_microeconomics": 0.6923076923076923,
-      "mmlu_eval_accuracy_high_school_physics": 0.17647058823529413,
-      "mmlu_eval_accuracy_high_school_psychology": 0.8166666666666667,
-      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
       "mmlu_eval_accuracy_high_school_us_history": 0.7727272727272727,
-      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
-      "mmlu_eval_accuracy_human_aging": 0.7391304347826086,
-      "mmlu_eval_accuracy_human_sexuality": 0.5833333333333334,
       "mmlu_eval_accuracy_international_law": 0.8461538461538461,
-      "mmlu_eval_accuracy_jurisprudence": 0.6363636363636364,
-      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
-      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
-      "mmlu_eval_accuracy_management": 0.9090909090909091,
       "mmlu_eval_accuracy_marketing": 0.88,
       "mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
-      "mmlu_eval_accuracy_miscellaneous": 0.7441860465116279,
-      "mmlu_eval_accuracy_moral_disputes": 0.5789473684210527,
-      "mmlu_eval_accuracy_moral_scenarios": 0.36,
-      "mmlu_eval_accuracy_nutrition": 0.7272727272727273,
-      "mmlu_eval_accuracy_philosophy": 0.7352941176470589,
       "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
-      "mmlu_eval_accuracy_professional_accounting": 0.5483870967741935,
-      "mmlu_eval_accuracy_professional_law": 0.3941176470588235,
-      "mmlu_eval_accuracy_professional_medicine": 0.6774193548387096,
-      "mmlu_eval_accuracy_professional_psychology": 0.5797101449275363,
-      "mmlu_eval_accuracy_public_relations": 0.5,
-      "mmlu_eval_accuracy_security_studies": 0.7037037037037037,
-      "mmlu_eval_accuracy_sociology": 0.9090909090909091,
-      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
-      "mmlu_eval_accuracy_virology": 0.5,
       "mmlu_eval_accuracy_world_religions": 0.8947368421052632,
-      "mmlu_loss": 1.0969554948822324,
       "step": 200
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 6231,
   "num_train_epochs": 3,
   "save_steps": 200,
-  "total_flos": 1.0393688681899622e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7412691712379456,
   "best_model_checkpoint": "experts/mistralic-expert-9/checkpoint-200",
+  "epoch": 0.04813188135491246,
   "eval_steps": 200,
   "global_step": 200,
   "is_hyper_param_search": false,
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
+      "loss": 0.7829,
+      "step": 1
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.7089,
+      "step": 2
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.652,
+      "step": 3
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.0244,
+      "step": 4
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.0769,
+      "step": 5
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.7341,
+      "step": 6
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.7328,
+      "step": 7
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8798,
+      "step": 8
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.6666,
+      "step": 9
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8604,
       "step": 10
     },
     {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8468,
+      "step": 11
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.9661,
+      "step": 12
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8119,
+      "step": 13
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8655,
+      "step": 14
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.5448,
+      "step": 15
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.9035,
+      "step": 16
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8323,
+      "step": 17
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.6687,
+      "step": 18
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.8933,
+      "step": 19
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 0.7238,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7591,
+      "step": 21
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5128,
+      "step": 22
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.5734,
+      "step": 23
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0502,
+      "step": 24
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.002,
+      "step": 25
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.798,
+      "step": 26
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7186,
+      "step": 27
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.9112,
+      "step": 28
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5919,
+      "step": 29
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.8125,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6634,
+      "step": 31
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0096,
+      "step": 32
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.672,
+      "step": 33
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7521,
+      "step": 34
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5946,
+      "step": 35
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0072,
+      "step": 36
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.939,
+      "step": 37
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6419,
+      "step": 38
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0206,
+      "step": 39
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6814,
+      "step": 40
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.8587,
+      "step": 41
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6549,
+      "step": 42
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7792,
+      "step": 43
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7181,
+      "step": 44
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0225,
+      "step": 45
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.761,
+      "step": 46
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6052,
+      "step": 47
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6887,
+      "step": 48
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.8332,
+      "step": 49
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7334,
+      "step": 50
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7373,
+      "step": 51
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7164,
+      "step": 52
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6855,
+      "step": 53
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.9398,
+      "step": 54
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.687,
+      "step": 55
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7259,
+      "step": 56
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 1.0526,
+      "step": 57
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7918,
+      "step": 58
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.8921,
+      "step": 59
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5324,
+      "step": 60
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.8227,
+      "step": 61
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 0.7512,
+      "step": 62
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.9117,
+      "step": 63
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7862,
+      "step": 64
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.9442,
+      "step": 65
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8861,
+      "step": 66
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6102,
+      "step": 67
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7185,
+      "step": 68
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8237,
+      "step": 69
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8127,
+      "step": 70
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7026,
+      "step": 71
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6567,
+      "step": 72
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7449,
+      "step": 73
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 1.0395,
+      "step": 74
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8453,
+      "step": 75
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 1.0422,
+      "step": 76
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.4983,
+      "step": 77
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6663,
+      "step": 78
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5482,
+      "step": 79
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5009,
+      "step": 80
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.4778,
+      "step": 81
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7916,
+      "step": 82
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5971,
+      "step": 83
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8567,
+      "step": 84
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 1.0076,
+      "step": 85
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7959,
+      "step": 86
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8249,
+      "step": 87
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7941,
+      "step": 88
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.696,
+      "step": 89
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6833,
+      "step": 90
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5947,
+      "step": 91
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6119,
+      "step": 92
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6495,
+      "step": 93
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6445,
+      "step": 94
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7122,
+      "step": 95
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8692,
+      "step": 96
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8587,
+      "step": 97
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.805,
+      "step": 98
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6772,
+      "step": 99
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.8503,
+      "step": 100
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7101,
+      "step": 101
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6113,
+      "step": 102
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 0.7861,
+      "step": 103
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6994,
+      "step": 104
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6874,
+      "step": 105
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8741,
+      "step": 106
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6024,
+      "step": 107
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7844,
+      "step": 108
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8048,
+      "step": 109
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8304,
+      "step": 110
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5302,
+      "step": 111
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.846,
+      "step": 112
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6849,
+      "step": 113
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7676,
+      "step": 114
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7423,
+      "step": 115
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7003,
+      "step": 116
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5765,
+      "step": 117
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8719,
+      "step": 118
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.9269,
+      "step": 119
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7549,
+      "step": 120
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7172,
+      "step": 121
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7196,
+      "step": 122
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5534,
+      "step": 123
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6364,
+      "step": 124
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6204,
+      "step": 125
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.1158,
+      "step": 126
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8617,
+      "step": 127
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.673,
+      "step": 128
+    },
+    {
+      "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.5937,
+      "step": 129
     },
     {
+      "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.6191,
+      "step": 130
     },
     {
+      "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.807,
+      "step": 131
     },
     {
+      "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.5617,
+      "step": 132
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.9628,
+      "step": 133
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 0.9681,
+      "step": 134
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8927,
+      "step": 135
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7657,
+      "step": 136
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8324,
+      "step": 137
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7427,
+      "step": 138
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8727,
+      "step": 139
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8147,
+      "step": 140
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6597,
+      "step": 141
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8342,
+      "step": 142
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7009,
+      "step": 143
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7304,
+      "step": 144
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 0.7918,
+      "step": 145
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.7891,
+      "step": 146
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.7903,
+      "step": 147
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.7538,
+      "step": 148
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.8071,
+      "step": 149
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.6163,
+      "step": 150
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.7015,
+      "step": 151
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.6356,
+      "step": 152
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.6419,
+      "step": 153
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.628,
+      "step": 154
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.8761,
+      "step": 155
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9747,
+      "step": 156
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7915,
+      "step": 157
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5916,
+      "step": 158
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9699,
+      "step": 159
+    },
+    {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.668,
       "step": 160
     },
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 0.8413,
+      "step": 161
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9765,
+      "step": 162
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7141,
+      "step": 163
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6775,
+      "step": 164
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6601,
+      "step": 165
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6567,
+      "step": 166
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.8919,
+      "step": 167
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6437,
+      "step": 168
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5891,
+      "step": 169
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6067,
       "step": 170
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7152,
+      "step": 171
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7658,
+      "step": 172
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.659,
+      "step": 173
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7332,
+      "step": 174
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9071,
+      "step": 175
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.4358,
+      "step": 176
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7819,
+      "step": 177
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.6895,
+      "step": 178
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9041,
+      "step": 179
+    },
+    {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 1.1299,
       "step": 180
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 1.0473,
+      "step": 181
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9748,
+      "step": 182
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.9271,
+      "step": 183
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.7196,
+      "step": 184
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.8309,
+      "step": 185
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 0.8785,
+      "step": 186
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.6239,
+      "step": 187
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.8092,
+      "step": 188
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.7551,
+      "step": 189
+    },
+    {
+      "epoch": 0.05,
       "learning_rate": 0.0002,
+      "loss": 0.8115,
       "step": 190
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.7745,
+      "step": 191
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 1.0405,
+      "step": 192
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.7509,
+      "step": 193
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.8147,
+      "step": 194
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.6865,
+      "step": 195
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.6052,
+      "step": 196
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.7591,
+      "step": 197
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.8932,
+      "step": 198
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 0.618,
+      "step": 199
+    },
+    {
+      "epoch": 0.05,
       "learning_rate": 0.0002,
+      "loss": 0.6768,
       "step": 200
     },
     {
+      "epoch": 0.05,
+      "eval_loss": 0.7412691712379456,
+      "eval_runtime": 134.0567,
+      "eval_samples_per_second": 7.46,
+      "eval_steps_per_second": 3.73,
       "step": 200
     },
     {
+      "epoch": 0.05,
+      "mmlu_eval_accuracy": 0.5472120959224429,
       "mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
       "mmlu_eval_accuracy_anatomy": 0.5,
+      "mmlu_eval_accuracy_astronomy": 0.5625,
       "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.4482758620689655,
+      "mmlu_eval_accuracy_college_biology": 0.625,
+      "mmlu_eval_accuracy_college_chemistry": 0.125,
+      "mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
+      "mmlu_eval_accuracy_college_mathematics": 0.5454545454545454,
+      "mmlu_eval_accuracy_college_medicine": 0.5454545454545454,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
+      "mmlu_eval_accuracy_conceptual_physics": 0.5384615384615384,
+      "mmlu_eval_accuracy_econometrics": 0.4166666666666667,
+      "mmlu_eval_accuracy_electrical_engineering": 0.5625,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.4146341463414634,
       "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
       "mmlu_eval_accuracy_global_facts": 0.3,
+      "mmlu_eval_accuracy_high_school_biology": 0.4375,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.36363636363636365,
       "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
       "mmlu_eval_accuracy_high_school_european_history": 0.7777777777777778,
+      "mmlu_eval_accuracy_high_school_geography": 0.7272727272727273,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.5581395348837209,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.11764705882352941,
+      "mmlu_eval_accuracy_high_school_psychology": 0.7666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
       "mmlu_eval_accuracy_high_school_us_history": 0.7727272727272727,
+      "mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
+      "mmlu_eval_accuracy_human_aging": 0.8695652173913043,
+      "mmlu_eval_accuracy_human_sexuality": 0.4166666666666667,
       "mmlu_eval_accuracy_international_law": 0.8461538461538461,
+      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6111111111111112,
+      "mmlu_eval_accuracy_machine_learning": 0.5454545454545454,
+      "mmlu_eval_accuracy_management": 0.8181818181818182,
       "mmlu_eval_accuracy_marketing": 0.88,
       "mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
+      "mmlu_eval_accuracy_miscellaneous": 0.7209302325581395,
+      "mmlu_eval_accuracy_moral_disputes": 0.5263157894736842,
+      "mmlu_eval_accuracy_moral_scenarios": 0.29,
+      "mmlu_eval_accuracy_nutrition": 0.6666666666666666,
+      "mmlu_eval_accuracy_philosophy": 0.5882352941176471,
       "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
+      "mmlu_eval_accuracy_professional_accounting": 0.6451612903225806,
+      "mmlu_eval_accuracy_professional_law": 0.3352941176470588,
+      "mmlu_eval_accuracy_professional_medicine": 0.4838709677419355,
+      "mmlu_eval_accuracy_professional_psychology": 0.5652173913043478,
+      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
+      "mmlu_eval_accuracy_security_studies": 0.5555555555555556,
+      "mmlu_eval_accuracy_sociology": 0.8636363636363636,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.9090909090909091,
+      "mmlu_eval_accuracy_virology": 0.6111111111111112,
       "mmlu_eval_accuracy_world_religions": 0.8947368421052632,
+      "mmlu_loss": 1.4129784670184238,
       "step": 200
     }
   ],
+  "logging_steps": 1,
+  "max_steps": 12465,
   "num_train_epochs": 3,
   "save_steps": 200,
+  "total_flos": 4.131795373581926e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33eae242384e626b4f6ecff3a308c1a811f1b81e477cc7196ec4e5dd7f41f001
-size 6392

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd5bb9a2c78d80517f60f05f862b74c6d4f0f6baad6cc6e2b5b20b44363d6c05
+size 6456