Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +100 -58
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d5259f63701323f722761a70bc120c9eac3ca5b4f21ffa24b7e0b55f0a2771e
 size 1192135096

 version https://git-lfs.github.com/spec/v1
+oid sha256:8240242a3d0c2ae4d658a46f65180d5bfcc3377148abaab6229f38648f372be5
 size 1192135096

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec5cc8aa219267408c45a4d037896a55c856faab11e2505858c17e4c6415d0f3
 size 2384459962

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae1869aea5467ffc88a428bc881a5e8da420e5b315f456962050117e347f9441
 size 2384459962

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de16677c82ff272c2a0bd0cd189a45a0e7a858ab45925adad4f6dc891d27b809
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9197244c5ee8fd84c23cb5387dd7cd4b0d34bb7720142963e9ea404ddb17646d
 size 1064

trainer_state.json CHANGED Viewed

@@ -3,105 +3,147 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
-  "eval_steps": 100,
-  "global_step": 625,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
-      "grad_norm": 6.5,
-      "learning_rate": 4.2080000000000004e-05,
-      "loss": 1.2105,
       "step": 100
     },
     {
       "epoch": 0.16,
-      "eval_loss": 1.458847165107727,
-      "eval_runtime": 128.1964,
-      "eval_samples_per_second": 44.744,
-      "eval_steps_per_second": 5.593,
-      "step": 100
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 6.34375,
-      "learning_rate": 3.408e-05,
-      "loss": 1.1564,
       "step": 200
     },
     {
       "epoch": 0.32,
-      "eval_loss": 1.4528062343597412,
-      "eval_runtime": 128.0959,
-      "eval_samples_per_second": 44.779,
-      "eval_steps_per_second": 5.597,
-      "step": 200
     },
     {
       "epoch": 0.48,
-      "grad_norm": 7.40625,
-      "learning_rate": 2.6079999999999998e-05,
-      "loss": 1.1265,
-      "step": 300
     },
     {
       "epoch": 0.48,
-      "eval_loss": 1.4363205432891846,
-      "eval_runtime": 128.0611,
-      "eval_samples_per_second": 44.791,
-      "eval_steps_per_second": 5.599,
-      "step": 300
     },
     {
       "epoch": 0.64,
-      "grad_norm": 6.1875,
-      "learning_rate": 1.808e-05,
-      "loss": 1.1266,
-      "step": 400
     },
     {
       "epoch": 0.64,
-      "eval_loss": 1.428483009338379,
-      "eval_runtime": 128.0722,
-      "eval_samples_per_second": 44.787,
       "eval_steps_per_second": 5.598,
-      "step": 400
     },
     {
       "epoch": 0.8,
-      "grad_norm": 6.03125,
-      "learning_rate": 1.008e-05,
-      "loss": 1.1208,
-      "step": 500
     },
     {
       "epoch": 0.8,
-      "eval_loss": 1.4252334833145142,
-      "eval_runtime": 128.0781,
-      "eval_samples_per_second": 44.785,
-      "eval_steps_per_second": 5.598,
-      "step": 500
     },
     {
       "epoch": 0.96,
-      "grad_norm": 5.59375,
-      "learning_rate": 2.08e-06,
-      "loss": 1.1074,
-      "step": 600
     },
     {
       "epoch": 0.96,
-      "eval_loss": 1.4235466718673706,
-      "eval_runtime": 128.1144,
-      "eval_samples_per_second": 44.772,
-      "eval_steps_per_second": 5.597,
-      "step": 600
     }
   ],
   "logging_steps": 100,
-  "max_steps": 625,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -117,8 +159,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.353116024832e+16,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
+  "eval_steps": 200,
+  "global_step": 1250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08,
+      "grad_norm": 7.40625,
+      "learning_rate": 4.604e-05,
+      "loss": 1.1267,
       "step": 100
     },
     {
       "epoch": 0.16,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.2040000000000004e-05,
+      "loss": 1.1115,
+      "step": 200
     },
     {
+      "epoch": 0.16,
+      "eval_loss": 1.4295576810836792,
+      "eval_runtime": 81.4705,
+      "eval_samples_per_second": 44.728,
+      "eval_steps_per_second": 5.597,
       "step": 200
     },
+    {
+      "epoch": 0.24,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.804e-05,
+      "loss": 1.0758,
+      "step": 300
+    },
     {
       "epoch": 0.32,
+      "grad_norm": 4.875,
+      "learning_rate": 3.404e-05,
+      "loss": 1.0637,
+      "step": 400
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.4099386930465698,
+      "eval_runtime": 81.8405,
+      "eval_samples_per_second": 44.526,
+      "eval_steps_per_second": 5.572,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.004e-05,
+      "loss": 1.0337,
+      "step": 500
     },
     {
       "epoch": 0.48,
+      "grad_norm": 5.125,
+      "learning_rate": 2.6040000000000005e-05,
+      "loss": 1.025,
+      "step": 600
     },
     {
       "epoch": 0.48,
+      "eval_loss": 1.3943334817886353,
+      "eval_runtime": 81.4207,
+      "eval_samples_per_second": 44.755,
+      "eval_steps_per_second": 5.601,
+      "step": 600
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 5.125,
+      "learning_rate": 2.2040000000000002e-05,
+      "loss": 1.0328,
+      "step": 700
     },
     {
       "epoch": 0.64,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.804e-05,
+      "loss": 1.0097,
+      "step": 800
     },
     {
       "epoch": 0.64,
+      "eval_loss": 1.3861989974975586,
+      "eval_runtime": 81.4518,
+      "eval_samples_per_second": 44.738,
       "eval_steps_per_second": 5.598,
+      "step": 800
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.4040000000000001e-05,
+      "loss": 1.0091,
+      "step": 900
     },
     {
       "epoch": 0.8,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.004e-05,
+      "loss": 0.9927,
+      "step": 1000
     },
     {
       "epoch": 0.8,
+      "eval_loss": 1.3814911842346191,
+      "eval_runtime": 81.426,
+      "eval_samples_per_second": 44.752,
+      "eval_steps_per_second": 5.6,
+      "step": 1000
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 6.5625,
+      "learning_rate": 6.040000000000001e-06,
+      "loss": 1.0129,
+      "step": 1100
     },
     {
       "epoch": 0.96,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.0400000000000004e-06,
+      "loss": 0.988,
+      "step": 1200
     },
     {
       "epoch": 0.96,
+      "eval_loss": 1.3815840482711792,
+      "eval_runtime": 81.4118,
+      "eval_samples_per_second": 44.76,
+      "eval_steps_per_second": 5.601,
+      "step": 1200
     }
   ],
   "logging_steps": 100,
+  "max_steps": 1250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.706232049664e+16,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a7349d2d8120da787c6450659b502b45dafc69ba556136c839ae39ead81bc46
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5891e3b928ad2808f900a2b53aa256fe6c83df2b1853b1d06afa110235dcafb
 size 5304