Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +82 -289
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2d49a2ad2df39c3c1b8ba9be349127ce620615e5d7fd3e5d5121180e011ab5
 size 686549637

 version https://git-lfs.github.com/spec/v1
+oid sha256:656817bfa6a22aa8943bf0da0421dc07683b885df8cc35d91a24f711f492f8e4
 size 686549637

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f754c81e253146cf8f143265ea8a0855432a701853aa6eabfbfe4cb4ec02dc0b
 size 343284077

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e8d1e9b12a095f980d3cff70df27da6cf9b455e9897a38989e44d3a3273706f
 size 343284077

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bb3860d98363e44bc4704fb9458deec927fd96997d1d09c80639070db959d22
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:7508d4b8dd267de5cc58e972da25236687927651336a28f292c92f7f23951475
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e5c5410236a01c76e00a372a6d100405306d921ea2e7b7cc3083628f1364373
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1104ddaf4c1d9ec238905ad79c16f00386750536dfff0f555acbb7df8c8a8135
 size 627

trainer_state.json CHANGED Viewed

@@ -1,430 +1,223 @@
 {
-  "best_metric": 0.07279229909181595,
-  "best_model_checkpoint": "./vit-base-beans/checkpoint-500",
-  "epoch": 3.6144578313253013,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
-      "learning_rate": 0.00019698795180722893,
-      "loss": 1.6355,
       "step": 10
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019397590361445782,
-      "loss": 1.0697,
       "step": 20
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00019096385542168677,
-      "loss": 0.6398,
       "step": 30
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00018795180722891569,
-      "loss": 0.4757,
       "step": 40
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00018493975903614458,
-      "loss": 0.3393,
       "step": 50
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0001819277108433735,
-      "loss": 0.297,
       "step": 60
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.00017891566265060242,
-      "loss": 0.2623,
       "step": 70
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00017590361445783134,
-      "loss": 0.2053,
       "step": 80
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.00017289156626506026,
-      "loss": 0.1578,
       "step": 90
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00016987951807228917,
-      "loss": 0.1579,
       "step": 100
     },
     {
       "epoch": 0.6,
-      "eval_accuracy": 0.967479674796748,
-      "eval_loss": 0.16562165319919586,
-      "eval_runtime": 3.9225,
-      "eval_samples_per_second": 62.716,
-      "eval_steps_per_second": 7.903,
       "step": 100
     },
     {
       "epoch": 0.66,
-      "learning_rate": 0.0001668674698795181,
-      "loss": 0.1362,
       "step": 110
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.00016385542168674699,
-      "loss": 0.1524,
       "step": 120
     },
     {
       "epoch": 0.78,
-      "learning_rate": 0.0001608433734939759,
-      "loss": 0.0724,
       "step": 130
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.00015783132530120482,
-      "loss": 0.2021,
       "step": 140
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.00015481927710843374,
-      "loss": 0.0813,
       "step": 150
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.00015180722891566266,
-      "loss": 0.0626,
       "step": 160
     },
     {
       "epoch": 1.02,
-      "learning_rate": 0.00014879518072289158,
-      "loss": 0.0959,
       "step": 170
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.00014578313253012047,
-      "loss": 0.0884,
       "step": 180
     },
     {
       "epoch": 1.14,
-      "learning_rate": 0.0001427710843373494,
-      "loss": 0.0713,
       "step": 190
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00013975903614457834,
-      "loss": 0.0604,
       "step": 200
     },
     {
       "epoch": 1.2,
-      "eval_accuracy": 0.983739837398374,
-      "eval_loss": 0.11851482838392258,
-      "eval_runtime": 4.1596,
-      "eval_samples_per_second": 59.14,
-      "eval_steps_per_second": 7.453,
       "step": 200
     },
     {
       "epoch": 1.27,
-      "learning_rate": 0.00013674698795180723,
-      "loss": 0.0534,
       "step": 210
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.00013373493975903615,
-      "loss": 0.0292,
       "step": 220
     },
     {
       "epoch": 1.39,
-      "learning_rate": 0.00013072289156626507,
-      "loss": 0.0395,
       "step": 230
     },
     {
       "epoch": 1.45,
-      "learning_rate": 0.00012771084337349396,
-      "loss": 0.0325,
       "step": 240
     },
     {
       "epoch": 1.51,
-      "learning_rate": 0.00012469879518072288,
-      "loss": 0.0298,
       "step": 250
     },
     {
       "epoch": 1.57,
-      "learning_rate": 0.00012168674698795181,
-      "loss": 0.0211,
       "step": 260
     },
     {
       "epoch": 1.63,
-      "learning_rate": 0.00011867469879518073,
-      "loss": 0.07,
       "step": 270
     },
     {
       "epoch": 1.69,
-      "learning_rate": 0.00011566265060240964,
-      "loss": 0.0411,
       "step": 280
     },
     {
       "epoch": 1.75,
-      "learning_rate": 0.00011265060240963856,
-      "loss": 0.0201,
       "step": 290
     },
     {
       "epoch": 1.81,
-      "learning_rate": 0.00010963855421686749,
-      "loss": 0.0178,
       "step": 300
     },
     {
       "epoch": 1.81,
-      "eval_accuracy": 0.9634146341463414,
-      "eval_loss": 0.1352052390575409,
-      "eval_runtime": 4.1303,
-      "eval_samples_per_second": 59.559,
-      "eval_steps_per_second": 7.505,
       "step": 300
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.00010662650602409638,
-      "loss": 0.0229,
-      "step": 310
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0001036144578313253,
-      "loss": 0.0155,
-      "step": 320
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 0.00010060240963855423,
-      "loss": 0.0148,
-      "step": 330
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 9.759036144578314e-05,
-      "loss": 0.0156,
-      "step": 340
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 9.457831325301205e-05,
-      "loss": 0.0135,
-      "step": 350
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 9.156626506024096e-05,
-      "loss": 0.0139,
-      "step": 360
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 8.855421686746988e-05,
-      "loss": 0.0229,
-      "step": 370
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 8.55421686746988e-05,
-      "loss": 0.0122,
-      "step": 380
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 8.253012048192772e-05,
-      "loss": 0.0121,
-      "step": 390
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 7.951807228915663e-05,
-      "loss": 0.0112,
-      "step": 400
-    },
-    {
-      "epoch": 2.41,
-      "eval_accuracy": 0.975609756097561,
-      "eval_loss": 0.10706935822963715,
-      "eval_runtime": 4.0159,
-      "eval_samples_per_second": 61.257,
-      "eval_steps_per_second": 7.719,
-      "step": 400
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 7.650602409638555e-05,
-      "loss": 0.0269,
-      "step": 410
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 7.349397590361447e-05,
-      "loss": 0.0119,
-      "step": 420
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 7.048192771084337e-05,
-      "loss": 0.0346,
-      "step": 430
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 6.746987951807229e-05,
-      "loss": 0.0104,
-      "step": 440
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 6.445783132530121e-05,
-      "loss": 0.0101,
-      "step": 450
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 6.144578313253012e-05,
-      "loss": 0.0114,
-      "step": 460
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 5.843373493975904e-05,
-      "loss": 0.0098,
-      "step": 470
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 5.5421686746987955e-05,
-      "loss": 0.0094,
-      "step": 480
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 5.240963855421687e-05,
-      "loss": 0.0099,
-      "step": 490
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 4.9397590361445786e-05,
-      "loss": 0.0092,
-      "step": 500
-    },
-    {
-      "epoch": 3.01,
-      "eval_accuracy": 0.983739837398374,
-      "eval_loss": 0.07279229909181595,
-      "eval_runtime": 4.4168,
-      "eval_samples_per_second": 55.696,
-      "eval_steps_per_second": 7.019,
-      "step": 500
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 4.63855421686747e-05,
-      "loss": 0.009,
-      "step": 510
-    },
-    {
-      "epoch": 3.13,
-      "learning_rate": 4.337349397590362e-05,
-      "loss": 0.0089,
-      "step": 520
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 4.036144578313254e-05,
-      "loss": 0.0087,
-      "step": 530
-    },
-    {
-      "epoch": 3.25,
-      "learning_rate": 3.734939759036144e-05,
-      "loss": 0.0085,
-      "step": 540
-    },
-    {
-      "epoch": 3.31,
-      "learning_rate": 3.433734939759036e-05,
-      "loss": 0.0083,
-      "step": 550
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 3.132530120481928e-05,
-      "loss": 0.0082,
-      "step": 560
-    },
-    {
-      "epoch": 3.43,
-      "learning_rate": 2.8313253012048197e-05,
-      "loss": 0.0083,
-      "step": 570
-    },
-    {
-      "epoch": 3.49,
-      "learning_rate": 2.530120481927711e-05,
-      "loss": 0.0317,
-      "step": 580
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 2.2289156626506025e-05,
-      "loss": 0.0079,
-      "step": 590
-    },
-    {
-      "epoch": 3.61,
-      "learning_rate": 1.927710843373494e-05,
-      "loss": 0.008,
-      "step": 600
-    },
-    {
-      "epoch": 3.61,
-      "eval_accuracy": 0.983739837398374,
-      "eval_loss": 0.08243442326784134,
-      "eval_runtime": 3.9885,
-      "eval_samples_per_second": 61.677,
-      "eval_steps_per_second": 7.772,
-      "step": 600
     }
   ],
-  "max_steps": 664,
-  "num_train_epochs": 4,
-  "total_flos": 7.430264924897526e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.12367749214172363,
+  "best_model_checkpoint": "./vit-base-beans/checkpoint-300",
+  "epoch": 1.8072289156626506,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
+      "learning_rate": 0.00019951807228915663,
+      "loss": 1.6515,
       "step": 10
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00019903614457831325,
+      "loss": 1.0551,
       "step": 20
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0001985542168674699,
+      "loss": 0.6568,
       "step": 30
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.00019807228915662652,
+      "loss": 0.4811,
       "step": 40
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.00019759036144578314,
+      "loss": 0.3576,
       "step": 50
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.00019710843373493977,
+      "loss": 0.2787,
       "step": 60
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.00019662650602409642,
+      "loss": 0.233,
       "step": 70
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.000196144578313253,
+      "loss": 0.1287,
       "step": 80
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.00019566265060240966,
+      "loss": 0.1755,
       "step": 90
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00019518072289156628,
+      "loss": 0.109,
       "step": 100
     },
     {
       "epoch": 0.6,
+      "eval_accuracy": 0.959349593495935,
+      "eval_loss": 0.16569873690605164,
+      "eval_runtime": 4.541,
+      "eval_samples_per_second": 54.173,
+      "eval_steps_per_second": 6.827,
       "step": 100
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.0001946987951807229,
+      "loss": 0.1129,
       "step": 110
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.00019421686746987952,
+      "loss": 0.1769,
       "step": 120
     },
     {
       "epoch": 0.78,
+      "learning_rate": 0.00019373493975903617,
+      "loss": 0.1511,
       "step": 130
     },
     {
       "epoch": 0.84,
+      "learning_rate": 0.00019325301204819277,
+      "loss": 0.2121,
       "step": 140
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00019277108433734942,
+      "loss": 0.135,
       "step": 150
     },
     {
       "epoch": 0.96,
+      "learning_rate": 0.00019228915662650604,
+      "loss": 0.1046,
       "step": 160
     },
     {
       "epoch": 1.02,
+      "learning_rate": 0.00019180722891566266,
+      "loss": 0.0742,
       "step": 170
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.00019132530120481928,
+      "loss": 0.0655,
       "step": 180
     },
     {
       "epoch": 1.14,
+      "learning_rate": 0.00019084337349397593,
+      "loss": 0.0735,
       "step": 190
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00019036144578313252,
+      "loss": 0.0599,
       "step": 200
     },
     {
       "epoch": 1.2,
+      "eval_accuracy": 0.9471544715447154,
+      "eval_loss": 0.16865180432796478,
+      "eval_runtime": 4.123,
+      "eval_samples_per_second": 59.665,
+      "eval_steps_per_second": 7.519,
       "step": 200
     },
     {
       "epoch": 1.27,
+      "learning_rate": 0.00018987951807228917,
+      "loss": 0.1547,
       "step": 210
     },
     {
       "epoch": 1.33,
+      "learning_rate": 0.0001893975903614458,
+      "loss": 0.0723,
       "step": 220
     },
     {
       "epoch": 1.39,
+      "learning_rate": 0.00018891566265060242,
+      "loss": 0.045,
       "step": 230
     },
     {
       "epoch": 1.45,
+      "learning_rate": 0.00018843373493975904,
+      "loss": 0.0339,
       "step": 240
     },
     {
       "epoch": 1.51,
+      "learning_rate": 0.00018795180722891569,
+      "loss": 0.0424,
       "step": 250
     },
     {
       "epoch": 1.57,
+      "learning_rate": 0.00018746987951807228,
+      "loss": 0.1061,
       "step": 260
     },
     {
       "epoch": 1.63,
+      "learning_rate": 0.00018698795180722893,
+      "loss": 0.0557,
       "step": 270
     },
     {
       "epoch": 1.69,
+      "learning_rate": 0.00018650602409638555,
+      "loss": 0.0491,
       "step": 280
     },
     {
       "epoch": 1.75,
+      "learning_rate": 0.00018602409638554217,
+      "loss": 0.0489,
       "step": 290
     },
     {
       "epoch": 1.81,
+      "learning_rate": 0.0001855421686746988,
+      "loss": 0.0387,
       "step": 300
     },
     {
       "epoch": 1.81,
+      "eval_accuracy": 0.9715447154471545,
+      "eval_loss": 0.12367749214172363,
+      "eval_runtime": 4.2743,
+      "eval_samples_per_second": 57.553,
+      "eval_steps_per_second": 7.253,
       "step": 300
     }
   ],
+  "max_steps": 4150,
+  "num_train_epochs": 25,
+  "total_flos": 3.716682371694674e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8366d37c75d8f34e90410171cc6618ba8f6df896670df7c5bdb12c3704ca209
 size 3899

 version https://git-lfs.github.com/spec/v1
+oid sha256:33304c35f757f7a8769397f0990b45525c35082ccef0e18edbe695db423c6d46
 size 3899