Upload model

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +69 -39
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0072d5dc7a81f4bfcf19b73a6c214db1b6fe24fc30524008f3de47126ce74047
 size 903834408

 version https://git-lfs.github.com/spec/v1
+oid sha256:29f4cde80380a6d04e24042739cd37d0d0e36af7588ded2da066e49d4e5c3a01
 size 903834408

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45f14d9e5a670a18e813af4eccca8da86126c37bf177b6f610e92da7e6c6fc2e
 size 1807760570

 version https://git-lfs.github.com/spec/v1
+oid sha256:7716b7552c3a5176031ce1d929ad4db157d866a3e4a99a6d4aaf569e53060cf7
 size 1807760570

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bc9bd724dba780ab41d603fed85fcce7c1df2f59e52b978ed73183817633767
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:290e063bec6a3965ea88353f5ee425ec022f68de32ff9ca72b05f9cbfb9d16a2
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1e7ae8bfe6d5d5becb2c8ccd9b0b88cf41ba8499dda77e4ee5af5a22d8f08fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8480716a4cd731e7eeec228a6e7065ec1ab79c6c3a74418564e499094e979736
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,69 +1,99 @@
 {
-  "best_metric": 0.9207741618156433,
-  "best_model_checkpoint": "./vit5_summary/checkpoint-3939",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 3939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "grad_norm": 226449.640625,
-      "learning_rate": 1.4815232722143866e-05,
-      "loss": 1.8534,
-      "step": 1313
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.9617251753807068,
-      "eval_runtime": 117.5744,
-      "eval_samples_per_second": 25.516,
-      "eval_steps_per_second": 1.599,
-      "step": 1313
     },
     {
       "epoch": 2.0,
-      "grad_norm": 193718.5625,
-      "learning_rate": 7.407616361071933e-06,
-      "loss": 0.9963,
-      "step": 2626
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.9302210211753845,
-      "eval_runtime": 117.1769,
-      "eval_samples_per_second": 25.602,
-      "eval_steps_per_second": 1.604,
-      "step": 2626
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 169458.0625,
       "learning_rate": 0.0,
-      "loss": 0.9445,
-      "step": 3939
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.9207741618156433,
-      "eval_runtime": 117.8605,
-      "eval_samples_per_second": 25.454,
-      "eval_steps_per_second": 1.595,
-      "step": 3939
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3939,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
         "early_stopping_patience": 3,
-        "early_stopping_threshold": 0.01
       },
       "attributes": {
         "early_stopping_patience_counter": 1
@@ -80,8 +110,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.836434710528e+16,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.924084484577179,
+  "best_model_checkpoint": "./vit5_summary/checkpoint-6560",
+  "epoch": 4.998095238095238,
   "eval_steps": 500,
+  "global_step": 6560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.9996190476190476,
+      "grad_norm": 154066.6875,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 1.9429,
+      "step": 1312
     },
     {
+      "epoch": 0.9996190476190476,
+      "eval_loss": 0.9758385419845581,
+      "eval_runtime": 140.6121,
+      "eval_samples_per_second": 21.335,
+      "eval_steps_per_second": 2.667,
+      "step": 1312
     },
     {
       "epoch": 2.0,
+      "grad_norm": 139834.875,
+      "learning_rate": 1.3329945799457996e-05,
+      "loss": 0.9976,
+      "step": 2625
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.9402124285697937,
+      "eval_runtime": 140.2969,
+      "eval_samples_per_second": 21.383,
+      "eval_steps_per_second": 2.673,
+      "step": 2625
     },
     {
+      "epoch": 2.9996190476190474,
+      "grad_norm": 148959.296875,
+      "learning_rate": 8.88550135501355e-06,
+      "loss": 0.9333,
+      "step": 3937
+    },
+    {
+      "epoch": 2.9996190476190474,
+      "eval_loss": 0.9339297413825989,
+      "eval_runtime": 140.4631,
+      "eval_samples_per_second": 21.358,
+      "eval_steps_per_second": 2.67,
+      "step": 3937
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 157890.484375,
+      "learning_rate": 4.437669376693767e-06,
+      "loss": 0.8917,
+      "step": 5250
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.9244415760040283,
+      "eval_runtime": 139.6728,
+      "eval_samples_per_second": 21.479,
+      "eval_steps_per_second": 2.685,
+      "step": 5250
+    },
+    {
+      "epoch": 4.998095238095238,
+      "grad_norm": 162173.65625,
       "learning_rate": 0.0,
+      "loss": 0.8681,
+      "step": 6560
     },
     {
+      "epoch": 4.998095238095238,
+      "eval_loss": 0.924084484577179,
+      "eval_runtime": 140.9459,
+      "eval_samples_per_second": 21.285,
+      "eval_steps_per_second": 2.661,
+      "step": 6560
     }
   ],
   "logging_steps": 500,
+  "max_steps": 6560,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
         "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
       },
       "attributes": {
         "early_stopping_patience_counter": 1
       "attributes": {}
     }
   },
+  "total_flos": 6.39162201931776e+16,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90548ac777241dcad402c3d0c99144981fda42907eb54a5bcbaf8b50d193fa49
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:33061453a89d821c852ee2a9361bf864bf55f478ce52023a041ae7f05a36cec2
 size 5176