Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +327 -7
training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:170e9283396f794ac39c141ef58fc732a915723bcc48acda06109764aede853c
 size 201361312

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ba743cbcbe7a17a13ffee64e044e449254882634e848aa631f63e6778810b27
 size 201361312

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aba8d5f3fb425d691ad00a11ff612f2c4ce2ef2f2350b1aa78ac024098d151a6
 size 402868986

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8c590b229a780debdb448bc28cb8f79b28f2ec2c6ea5636a4abf950ae5a038
 size 402868986

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3df287feaf25c6bbc3e39d1e8402382f635590ca96adbe728944eb6f0edd1fc9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:78412adf2dda42daa646069b544a18df9b06cb455b0068bb5473d031abd28e97
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50d23b4f208a9403528cc4590d75da0ba9842779b9cd25a1b5978ffbe9bcceb1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:45e12526c8172a948234d8cb869935e517c484d36da5eb6ac9a7382e7d268eff
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6163371205329895,
-  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-200",
-  "epoch": 22.235294117647058,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -471,12 +471,332 @@
       "eval_samples_per_second": 4.46,
       "eval_steps_per_second": 0.595,
       "step": 200
     }
   ],
   "logging_steps": 5,
-  "max_steps": 200,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 25,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -490,7 +810,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0471069689549005e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5424160957336426,
+  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-400",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.46,
       "eval_steps_per_second": 0.595,
       "step": 200
+    },
+    {
+      "epoch": 3.586666666666667,
+      "eval_loss": 0.5931960940361023,
+      "eval_runtime": 28.5506,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 0.455,
+      "step": 201
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 0.8143700957298279,
+      "learning_rate": 5.206624871244066e-06,
+      "loss": 0.9672,
+      "step": 205
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 0.670274019241333,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "step": 210
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 0.5900228023529053,
+      "learning_rate": 4.793375128755934e-06,
+      "loss": 0.8865,
+      "step": 215
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.5981155633926392,
+      "learning_rate": 4.587103272638339e-06,
+      "loss": 1.1775,
+      "step": 220
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.5991724729537964,
+      "learning_rate": 4.381536843653262e-06,
+      "loss": 0.7489,
+      "step": 225
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.5450884103775024,
+      "learning_rate": 4.17702704859633e-06,
+      "loss": 0.8612,
+      "step": 230
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 0.444416344165802,
+      "learning_rate": 3.973923289021829e-06,
+      "loss": 0.7293,
+      "step": 235
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.3834201395511627,
+      "learning_rate": 3.7725725642960047e-06,
+      "loss": 0.7699,
+      "step": 240
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.3441762924194336,
+      "learning_rate": 3.573318878754475e-06,
+      "loss": 0.8972,
+      "step": 245
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5351847410202026,
+      "learning_rate": 3.3765026539765832e-06,
+      "loss": 0.6602,
+      "step": 250
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.5578957200050354,
+      "eval_runtime": 52.5326,
+      "eval_samples_per_second": 3.807,
+      "eval_steps_per_second": 0.476,
+      "step": 250
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.37455469369888306,
+      "learning_rate": 3.1824601471808504e-06,
+      "loss": 0.884,
+      "step": 255
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.6285215020179749,
+      "learning_rate": 2.991522876735154e-06,
+      "loss": 0.8042,
+      "step": 260
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.37903887033462524,
+      "learning_rate": 2.804017055763149e-06,
+      "loss": 0.6865,
+      "step": 265
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 0.4468790292739868,
+      "learning_rate": 2.6202630348146323e-06,
+      "loss": 0.9571,
+      "step": 270
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 2.321368932723999,
+      "learning_rate": 2.4405747545519966e-06,
+      "loss": 0.7722,
+      "step": 275
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.3462996482849121,
+      "learning_rate": 2.265259209387867e-06,
+      "loss": 0.6575,
+      "step": 280
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 0.7634517550468445,
+      "learning_rate": 2.094615922990309e-06,
+      "loss": 0.7036,
+      "step": 285
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 0.33972227573394775,
+      "learning_rate": 1.928936436551661e-06,
+      "loss": 0.6193,
+      "step": 290
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 0.863368570804596,
+      "learning_rate": 1.7685038106952952e-06,
+      "loss": 0.7429,
+      "step": 295
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.8421957492828369,
+      "learning_rate": 1.6135921418712959e-06,
+      "loss": 0.6177,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.5471388697624207,
+      "eval_runtime": 52.1971,
+      "eval_samples_per_second": 3.832,
+      "eval_steps_per_second": 0.479,
+      "step": 300
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 0.42387768626213074,
+      "learning_rate": 1.4644660940672628e-06,
+      "loss": 0.7107,
+      "step": 305
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.40212640166282654,
+      "learning_rate": 1.321380446634342e-06,
+      "loss": 0.6465,
+      "step": 310
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 0.38275906443595886,
+      "learning_rate": 1.1845796590009684e-06,
+      "loss": 0.7838,
+      "step": 315
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.517331063747406,
+      "learning_rate": 1.0542974530180327e-06,
+      "loss": 0.6743,
+      "step": 320
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.4819343388080597,
+      "learning_rate": 9.307564136490255e-07,
+      "loss": 0.6544,
+      "step": 325
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.5918112397193909,
+      "learning_rate": 8.141676086873574e-07,
+      "loss": 0.6178,
+      "step": 330
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.3847924768924713,
+      "learning_rate": 7.047302281505735e-07,
+      "loss": 0.5631,
+      "step": 335
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.43630239367485046,
+      "learning_rate": 6.026312439675553e-07,
+      "loss": 0.5709,
+      "step": 340
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.6350282430648804,
+      "learning_rate": 5.080450905401057e-07,
+      "loss": 0.7065,
+      "step": 345
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.5881220102310181,
+      "learning_rate": 4.211333667247125e-07,
+      "loss": 0.6102,
+      "step": 350
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.5426855683326721,
+      "eval_runtime": 52.2072,
+      "eval_samples_per_second": 3.831,
+      "eval_steps_per_second": 0.479,
+      "step": 350
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.5317939519882202,
+      "learning_rate": 3.420445597436056e-07,
+      "loss": 0.6632,
+      "step": 355
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.5702535510063171,
+      "learning_rate": 2.7091379149682683e-07,
+      "loss": 0.5992,
+      "step": 360
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.6872391104698181,
+      "learning_rate": 2.0786258770873647e-07,
+      "loss": 0.6422,
+      "step": 365
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.32829490303993225,
+      "learning_rate": 1.5299867030334815e-07,
+      "loss": 0.6811,
+      "step": 370
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.5375828742980957,
+      "learning_rate": 1.0641577336322761e-07,
+      "loss": 0.8423,
+      "step": 375
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.6306584477424622,
+      "learning_rate": 6.819348298638839e-08,
+      "loss": 0.5899,
+      "step": 380
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 0.44418570399284363,
+      "learning_rate": 3.839710131477492e-08,
+      "loss": 0.6571,
+      "step": 385
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 0.49700650572776794,
+      "learning_rate": 1.7077534966650767e-08,
+      "loss": 0.6561,
+      "step": 390
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.3311610519886017,
+      "learning_rate": 4.2712080634949024e-09,
+      "loss": 0.6226,
+      "step": 395
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.5899903774261475,
+      "learning_rate": 0.0,
+      "loss": 0.6762,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.5424160957336426,
+      "eval_runtime": 52.193,
+      "eval_samples_per_second": 3.832,
+      "eval_steps_per_second": 0.479,
+      "step": 400
     }
   ],
   "logging_steps": 5,
+  "max_steps": 400,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.4231605134807245e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:354b637532320af3e4fc7a75a7a30ab3076b3ef28de912201c92125d861c2822
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d7ef1ca84158a115fb2ab949b3f781c814c5ef428f591fc8d6d01108daabb83
 size 5624