Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +4 -344

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5f2a4574a1cf3760f6f91ba60977d9722c117968695c26c25c621af59a4e41c
 size 369134112

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b98ba6ac806c03c0409f8d783327298917bd9290b863f004e8c9f4949a49cab
 size 369134112

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca865aab08124c6a7502014773b63e03e2db1b57e13d98db1ce833c9c645aa41
 size 738417355

 version https://git-lfs.github.com/spec/v1
+oid sha256:7750a024ffc36f0b2b3d75b6d23a4abc45828022cd9fc314ed0ca873e7afc478
 size 738417355

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:580cf0c8deda9a5cdf877c15cfecec4f5a37dd72edd01f252f4b56d158b7550a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2b8b314158649523e5cd4cc114f7b492743419645cb17f66610bf7539ffeb77
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 99,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -658,346 +658,6 @@
       "mean_token_accuracy": 0.7686784416437149,
       "num_tokens": 116981.0,
       "step": 65
-    },
-    {
-      "entropy": 1.2168401956558228,
-      "epoch": 2.0,
-      "grad_norm": 18.375,
-      "learning_rate": 1.0578672383836437e-05,
-      "loss": 1.1399,
-      "mean_token_accuracy": 0.6772964239120484,
-      "num_tokens": 118284.0,
-      "step": 66
-    },
-    {
-      "entropy": 1.0973209738731384,
-      "epoch": 2.0306513409961684,
-      "grad_norm": 7.8125,
-      "learning_rate": 1.0045814070672498e-05,
-      "loss": 0.3245,
-      "mean_token_accuracy": 0.9032263904809952,
-      "num_tokens": 119663.0,
-      "step": 67
-    },
-    {
-      "entropy": 1.053741380572319,
-      "epoch": 2.0613026819923372,
-      "grad_norm": 6.0,
-      "learning_rate": 9.519884634504074e-06,
-      "loss": 0.2808,
-      "mean_token_accuracy": 0.9356953203678131,
-      "num_tokens": 121476.0,
-      "step": 68
-    },
-    {
-      "entropy": 0.9946238845586777,
-      "epoch": 2.0919540229885056,
-      "grad_norm": 5.375,
-      "learning_rate": 9.001619635203889e-06,
-      "loss": 0.2809,
-      "mean_token_accuracy": 0.9175683632493019,
-      "num_tokens": 123792.0,
-      "step": 69
-    },
-    {
-      "entropy": 1.015475258231163,
-      "epoch": 2.1226053639846745,
-      "grad_norm": 6.65625,
-      "learning_rate": 8.491743913236629e-06,
-      "loss": 0.2802,
-      "mean_token_accuracy": 0.9311554208397865,
-      "num_tokens": 125329.0,
-      "step": 70
-    },
-    {
-      "entropy": 0.9921716600656509,
-      "epoch": 2.153256704980843,
-      "grad_norm": 6.78125,
-      "learning_rate": 7.99097057590407e-06,
-      "loss": 0.2807,
-      "mean_token_accuracy": 0.9192091822624207,
-      "num_tokens": 126654.0,
-      "step": 71
-    },
-    {
-      "entropy": 0.8778632581233978,
-      "epoch": 2.1839080459770113,
-      "grad_norm": 6.09375,
-      "learning_rate": 7.500000000000004e-06,
-      "loss": 0.2776,
-      "mean_token_accuracy": 0.9309542253613472,
-      "num_tokens": 128629.0,
-      "step": 72
-    },
-    {
-      "entropy": 0.953188918530941,
-      "epoch": 2.21455938697318,
-      "grad_norm": 8.6875,
-      "learning_rate": 7.019518852269953e-06,
-      "loss": 0.4596,
-      "mean_token_accuracy": 0.8634384647011757,
-      "num_tokens": 130344.0,
-      "step": 73
-    },
-    {
-      "entropy": 0.8518025800585747,
-      "epoch": 2.2452107279693485,
-      "grad_norm": 7.46875,
-      "learning_rate": 6.55019912904567e-06,
-      "loss": 0.3006,
-      "mean_token_accuracy": 0.9241785854101181,
-      "num_tokens": 132152.0,
-      "step": 74
-    },
-    {
-      "entropy": 0.8467591479420662,
-      "epoch": 2.2758620689655173,
-      "grad_norm": 6.40625,
-      "learning_rate": 6.092697216397478e-06,
-      "loss": 0.2682,
-      "mean_token_accuracy": 0.9179906323552132,
-      "num_tokens": 134144.0,
-      "step": 75
-    },
-    {
-      "entropy": 0.7837551906704903,
-      "epoch": 2.3065134099616857,
-      "grad_norm": 7.25,
-      "learning_rate": 5.647652972118998e-06,
-      "loss": 0.3422,
-      "mean_token_accuracy": 0.8964523077011108,
-      "num_tokens": 136715.0,
-      "step": 76
-    },
-    {
-      "entropy": 0.7817510291934013,
-      "epoch": 2.3371647509578546,
-      "grad_norm": 7.25,
-      "learning_rate": 5.2156888308281875e-06,
-      "loss": 0.2678,
-      "mean_token_accuracy": 0.9292137995362282,
-      "num_tokens": 138907.0,
-      "step": 77
-    },
-    {
-      "entropy": 0.7645558379590511,
-      "epoch": 2.367816091954023,
-      "grad_norm": 7.6875,
-      "learning_rate": 4.797408933436207e-06,
-      "loss": 0.2069,
-      "mean_token_accuracy": 0.9325998574495316,
-      "num_tokens": 140536.0,
-      "step": 78
-    },
-    {
-      "entropy": 0.756471686065197,
-      "epoch": 2.3984674329501914,
-      "grad_norm": 8.6875,
-      "learning_rate": 4.393398282201788e-06,
-      "loss": 0.2288,
-      "mean_token_accuracy": 0.924439363181591,
-      "num_tokens": 142205.0,
-      "step": 79
-    },
-    {
-      "entropy": 0.7203860953450203,
-      "epoch": 2.42911877394636,
-      "grad_norm": 8.75,
-      "learning_rate": 4.004221922552608e-06,
-      "loss": 0.3023,
-      "mean_token_accuracy": 0.9196523949503899,
-      "num_tokens": 143937.0,
-      "step": 80
-    },
-    {
-      "entropy": 0.7062718719244003,
-      "epoch": 2.4597701149425286,
-      "grad_norm": 8.3125,
-      "learning_rate": 3.630424152818203e-06,
-      "loss": 0.242,
-      "mean_token_accuracy": 0.9289174377918243,
-      "num_tokens": 145867.0,
-      "step": 81
-    },
-    {
-      "entropy": 0.7174801900982857,
-      "epoch": 2.4904214559386975,
-      "grad_norm": 10.0625,
-      "learning_rate": 3.272527762979553e-06,
-      "loss": 0.3277,
-      "mean_token_accuracy": 0.9081463739275932,
-      "num_tokens": 147522.0,
-      "step": 82
-    },
-    {
-      "entropy": 0.7576407790184021,
-      "epoch": 2.521072796934866,
-      "grad_norm": 10.5,
-      "learning_rate": 2.931033303499975e-06,
-      "loss": 0.2869,
-      "mean_token_accuracy": 0.9234072640538216,
-      "num_tokens": 149154.0,
-      "step": 83
-    },
-    {
-      "entropy": 0.6603295132517815,
-      "epoch": 2.5517241379310347,
-      "grad_norm": 8.5,
-      "learning_rate": 2.60641838526008e-06,
-      "loss": 0.2954,
-      "mean_token_accuracy": 0.9192768260836601,
-      "num_tokens": 151443.0,
-      "step": 84
-    },
-    {
-      "entropy": 0.7209493666887283,
-      "epoch": 2.582375478927203,
-      "grad_norm": 7.625,
-      "learning_rate": 2.2991370115757383e-06,
-      "loss": 0.2553,
-      "mean_token_accuracy": 0.9288515150547028,
-      "num_tokens": 153346.0,
-      "step": 85
-    },
-    {
-      "entropy": 0.7502265051007271,
-      "epoch": 2.6130268199233715,
-      "grad_norm": 10.0625,
-      "learning_rate": 2.0096189432334194e-06,
-      "loss": 0.2759,
-      "mean_token_accuracy": 0.9101333618164062,
-      "num_tokens": 155041.0,
-      "step": 86
-    },
-    {
-      "entropy": 0.6479271687567234,
-      "epoch": 2.6436781609195403,
-      "grad_norm": 7.65625,
-      "learning_rate": 1.7382690974308551e-06,
-      "loss": 0.1765,
-      "mean_token_accuracy": 0.9528548792004585,
-      "num_tokens": 156508.0,
-      "step": 87
-    },
-    {
-      "entropy": 0.686508409678936,
-      "epoch": 2.6743295019157087,
-      "grad_norm": 6.5625,
-      "learning_rate": 1.4854669814637145e-06,
-      "loss": 0.1907,
-      "mean_token_accuracy": 0.9471124485135078,
-      "num_tokens": 158506.0,
-      "step": 88
-    },
-    {
-      "entropy": 0.6940162889659405,
-      "epoch": 2.704980842911877,
-      "grad_norm": 7.0625,
-      "learning_rate": 1.2515661619503572e-06,
-      "loss": 0.2139,
-      "mean_token_accuracy": 0.9348281025886536,
-      "num_tokens": 160511.0,
-      "step": 89
-    },
-    {
-      "entropy": 0.7100252062082291,
-      "epoch": 2.735632183908046,
-      "grad_norm": 9.0625,
-      "learning_rate": 1.036893770336938e-06,
-      "loss": 0.2846,
-      "mean_token_accuracy": 0.9120082557201385,
-      "num_tokens": 162548.0,
-      "step": 90
-    },
-    {
-      "entropy": 0.689895510673523,
-      "epoch": 2.766283524904215,
-      "grad_norm": 7.59375,
-      "learning_rate": 8.417500453744864e-07,
-      "loss": 0.2794,
-      "mean_token_accuracy": 0.9187788665294647,
-      "num_tokens": 164874.0,
-      "step": 91
-    },
-    {
-      "entropy": 0.6664801873266697,
-      "epoch": 2.796934865900383,
-      "grad_norm": 7.96875,
-      "learning_rate": 6.664079132078881e-07,
-      "loss": 0.199,
-      "mean_token_accuracy": 0.94305020570755,
-      "num_tokens": 166614.0,
-      "step": 92
-    },
-    {
-      "entropy": 0.7356143966317177,
-      "epoch": 2.8275862068965516,
-      "grad_norm": 29.25,
-      "learning_rate": 5.11112605663977e-07,
-      "loss": 0.3566,
-      "mean_token_accuracy": 0.8869450762867928,
-      "num_tokens": 168220.0,
-      "step": 93
-    },
-    {
-      "entropy": 0.7260653525590897,
-      "epoch": 2.8582375478927204,
-      "grad_norm": 12.0625,
-      "learning_rate": 3.760813172726457e-07,
-      "loss": 0.2395,
-      "mean_token_accuracy": 0.9347701147198677,
-      "num_tokens": 169540.0,
-      "step": 94
-    },
-    {
-      "entropy": 0.6620675958693027,
-      "epoch": 2.888888888888889,
-      "grad_norm": 7.3125,
-      "learning_rate": 2.6150290150067593e-07,
-      "loss": 0.2358,
-      "mean_token_accuracy": 0.9333521574735641,
-      "num_tokens": 171709.0,
-      "step": 95
-    },
-    {
-      "entropy": 0.6657432429492474,
-      "epoch": 2.9195402298850572,
-      "grad_norm": 9.375,
-      "learning_rate": 1.6753760662307217e-07,
-      "loss": 0.2499,
-      "mean_token_accuracy": 0.9248412474989891,
-      "num_tokens": 173432.0,
-      "step": 96
-    },
-    {
-      "entropy": 0.6610175892710686,
-      "epoch": 2.950191570881226,
-      "grad_norm": 10.3125,
-      "learning_rate": 9.431685160136094e-08,
-      "loss": 0.2274,
-      "mean_token_accuracy": 0.9352346211671829,
-      "num_tokens": 174962.0,
-      "step": 97
-    },
-    {
-      "entropy": 0.6855079308152199,
-      "epoch": 2.9808429118773945,
-      "grad_norm": 9.4375,
-      "learning_rate": 4.194304228229806e-08,
-      "loss": 0.2806,
-      "mean_token_accuracy": 0.9201195910573006,
-      "num_tokens": 176611.0,
-      "step": 98
-    },
-    {
-      "entropy": 0.6942157626152039,
-      "epoch": 3.0,
-      "grad_norm": 11.0625,
-      "learning_rate": 1.0489428174020877e-08,
-      "loss": 0.1556,
-      "mean_token_accuracy": 0.9565272331237793,
-      "num_tokens": 177426.0,
-      "step": 99
     }
   ],
   "logging_steps": 1,
@@ -1012,12 +672,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 4854658109841408.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9808429118773945,
   "eval_steps": 500,
+  "global_step": 65,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7686784416437149,
       "num_tokens": 116981.0,
       "step": 65
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 3202052021059584.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null