End of training

Browse files

Files changed (6) hide show

README.md +5 -3
all_results.json +13 -0
config.json +1 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +543 -0

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -16,10 +18,10 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-base-beans
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Accuracy: 0.9774
-- Loss: 0.0827
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 metrics:
 - accuracy
 # vit-base-beans
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the AI-Lab-Makerere/beans dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0655
+- Accuracy: 0.9925
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.9924812030075187,
+    "eval_loss": 0.06546766310930252,
+    "eval_runtime": 0.8127,
+    "eval_samples_per_second": 163.65,
+    "eval_steps_per_second": 20.918,
+    "total_flos": 4.006371770595533e+17,
+    "train_loss": 0.0,
+    "train_runtime": 0.1521,
+    "train_samples_per_second": 33994.24,
+    "train_steps_per_second": 4273.937
+}

config.json CHANGED Viewed

@@ -29,6 +29,7 @@
   "patch_size": 16,
   "pooler_act": "tanh",
   "pooler_output_size": 768,
   "qkv_bias": true,
   "torch_dtype": "float32",
   "transformers_version": "4.54.1"

   "patch_size": 16,
   "pooler_act": "tanh",
   "pooler_output_size": 768,
+  "problem_type": "single_label_classification",
   "qkv_bias": true,
   "torch_dtype": "float32",
   "transformers_version": "4.54.1"

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.9924812030075187,
+    "eval_loss": 0.06546766310930252,
+    "eval_runtime": 0.8127,
+    "eval_samples_per_second": 163.65,
+    "eval_steps_per_second": 20.918
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "total_flos": 4.006371770595533e+17,
+    "train_loss": 0.0,
+    "train_runtime": 0.1521,
+    "train_samples_per_second": 33994.24,
+    "train_steps_per_second": 4273.937
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,543 @@

+{
+  "best_global_step": 520,
+  "best_metric": 0.06546766310930252,
+  "best_model_checkpoint": "./beans_outputs/checkpoint-520",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07692307692307693,
+      "grad_norm": 2.198843479156494,
+      "learning_rate": 1.9723076923076924e-05,
+      "loss": 1.0245,
+      "step": 10
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 1.917884111404419,
+      "learning_rate": 1.9415384615384615e-05,
+      "loss": 0.9454,
+      "step": 20
+    },
+    {
+      "epoch": 0.23076923076923078,
+      "grad_norm": 2.078744411468506,
+      "learning_rate": 1.910769230769231e-05,
+      "loss": 0.8398,
+      "step": 30
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 2.6160151958465576,
+      "learning_rate": 1.88e-05,
+      "loss": 0.6955,
+      "step": 40
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 4.149175643920898,
+      "learning_rate": 1.8492307692307694e-05,
+      "loss": 0.661,
+      "step": 50
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 2.1062347888946533,
+      "learning_rate": 1.8184615384615384e-05,
+      "loss": 0.5797,
+      "step": 60
+    },
+    {
+      "epoch": 0.5384615384615384,
+      "grad_norm": 1.8043235540390015,
+      "learning_rate": 1.7876923076923078e-05,
+      "loss": 0.5192,
+      "step": 70
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 1.217357873916626,
+      "learning_rate": 1.7569230769230772e-05,
+      "loss": 0.3928,
+      "step": 80
+    },
+    {
+      "epoch": 0.6923076923076923,
+      "grad_norm": 2.427462577819824,
+      "learning_rate": 1.7261538461538463e-05,
+      "loss": 0.3534,
+      "step": 90
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 3.0030345916748047,
+      "learning_rate": 1.6953846153846156e-05,
+      "loss": 0.3683,
+      "step": 100
+    },
+    {
+      "epoch": 0.8461538461538461,
+      "grad_norm": 2.384122371673584,
+      "learning_rate": 1.6646153846153847e-05,
+      "loss": 0.3326,
+      "step": 110
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 2.4714367389678955,
+      "learning_rate": 1.633846153846154e-05,
+      "loss": 0.2446,
+      "step": 120
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 7.0579328536987305,
+      "learning_rate": 1.603076923076923e-05,
+      "loss": 0.281,
+      "step": 130
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9624060150375939,
+      "eval_loss": 0.21590378880500793,
+      "eval_runtime": 0.6008,
+      "eval_samples_per_second": 221.361,
+      "eval_steps_per_second": 28.294,
+      "step": 130
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 1.5222105979919434,
+      "learning_rate": 1.5723076923076926e-05,
+      "loss": 0.1984,
+      "step": 140
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 3.3074021339416504,
+      "learning_rate": 1.5415384615384616e-05,
+      "loss": 0.2224,
+      "step": 150
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 1.5715149641036987,
+      "learning_rate": 1.510769230769231e-05,
+      "loss": 0.2032,
+      "step": 160
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "grad_norm": 0.5117770433425903,
+      "learning_rate": 1.48e-05,
+      "loss": 0.2197,
+      "step": 170
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 0.6276758909225464,
+      "learning_rate": 1.4492307692307695e-05,
+      "loss": 0.209,
+      "step": 180
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": 2.73740553855896,
+      "learning_rate": 1.4184615384615385e-05,
+      "loss": 0.1603,
+      "step": 190
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 0.4705379605293274,
+      "learning_rate": 1.3876923076923079e-05,
+      "loss": 0.2545,
+      "step": 200
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.6391307711601257,
+      "learning_rate": 1.356923076923077e-05,
+      "loss": 0.1793,
+      "step": 210
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 3.0284461975097656,
+      "learning_rate": 1.3261538461538464e-05,
+      "loss": 0.2168,
+      "step": 220
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "grad_norm": 2.021752119064331,
+      "learning_rate": 1.2953846153846154e-05,
+      "loss": 0.1622,
+      "step": 230
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 5.118215560913086,
+      "learning_rate": 1.2646153846153848e-05,
+      "loss": 0.2609,
+      "step": 240
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 0.380063533782959,
+      "learning_rate": 1.2338461538461539e-05,
+      "loss": 0.137,
+      "step": 250
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.34861981868743896,
+      "learning_rate": 1.2030769230769233e-05,
+      "loss": 0.1296,
+      "step": 260
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9699248120300752,
+      "eval_loss": 0.13036151230335236,
+      "eval_runtime": 0.607,
+      "eval_samples_per_second": 219.099,
+      "eval_steps_per_second": 28.005,
+      "step": 260
+    },
+    {
+      "epoch": 2.076923076923077,
+      "grad_norm": 0.48520398139953613,
+      "learning_rate": 1.1723076923076923e-05,
+      "loss": 0.0894,
+      "step": 270
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 0.3357318639755249,
+      "learning_rate": 1.1415384615384617e-05,
+      "loss": 0.1421,
+      "step": 280
+    },
+    {
+      "epoch": 2.230769230769231,
+      "grad_norm": 7.024319648742676,
+      "learning_rate": 1.1107692307692308e-05,
+      "loss": 0.1226,
+      "step": 290
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 8.50007152557373,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 0.1355,
+      "step": 300
+    },
+    {
+      "epoch": 2.3846153846153846,
+      "grad_norm": 4.990291118621826,
+      "learning_rate": 1.0492307692307692e-05,
+      "loss": 0.1761,
+      "step": 310
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.3203364908695221,
+      "learning_rate": 1.0184615384615386e-05,
+      "loss": 0.1472,
+      "step": 320
+    },
+    {
+      "epoch": 2.5384615384615383,
+      "grad_norm": 6.037258148193359,
+      "learning_rate": 9.876923076923077e-06,
+      "loss": 0.1877,
+      "step": 330
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 1.1843386888504028,
+      "learning_rate": 9.569230769230769e-06,
+      "loss": 0.0712,
+      "step": 340
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 0.35253170132637024,
+      "learning_rate": 9.261538461538461e-06,
+      "loss": 0.1313,
+      "step": 350
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 9.631648063659668,
+      "learning_rate": 8.953846153846153e-06,
+      "loss": 0.1164,
+      "step": 360
+    },
+    {
+      "epoch": 2.8461538461538463,
+      "grad_norm": 0.31370919942855835,
+      "learning_rate": 8.646153846153846e-06,
+      "loss": 0.1535,
+      "step": 370
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 1.1416504383087158,
+      "learning_rate": 8.338461538461538e-06,
+      "loss": 0.1321,
+      "step": 380
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.2953951358795166,
+      "learning_rate": 8.03076923076923e-06,
+      "loss": 0.1373,
+      "step": 390
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9774436090225563,
+      "eval_loss": 0.09720253199338913,
+      "eval_runtime": 0.5922,
+      "eval_samples_per_second": 224.569,
+      "eval_steps_per_second": 28.704,
+      "step": 390
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 2.0271453857421875,
+      "learning_rate": 7.723076923076924e-06,
+      "loss": 0.1345,
+      "step": 400
+    },
+    {
+      "epoch": 3.1538461538461537,
+      "grad_norm": 7.004184722900391,
+      "learning_rate": 7.4153846153846164e-06,
+      "loss": 0.1496,
+      "step": 410
+    },
+    {
+      "epoch": 3.230769230769231,
+      "grad_norm": 9.225290298461914,
+      "learning_rate": 7.107692307692309e-06,
+      "loss": 0.1388,
+      "step": 420
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 0.2332003116607666,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.0772,
+      "step": 430
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 3.141547918319702,
+      "learning_rate": 6.492307692307693e-06,
+      "loss": 0.1145,
+      "step": 440
+    },
+    {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 12.893486022949219,
+      "learning_rate": 6.1846153846153855e-06,
+      "loss": 0.0818,
+      "step": 450
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "grad_norm": 5.630913257598877,
+      "learning_rate": 5.876923076923078e-06,
+      "loss": 0.0948,
+      "step": 460
+    },
+    {
+      "epoch": 3.6153846153846154,
+      "grad_norm": 7.8553266525268555,
+      "learning_rate": 5.56923076923077e-06,
+      "loss": 0.0719,
+      "step": 470
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 0.21685053408145905,
+      "learning_rate": 5.261538461538462e-06,
+      "loss": 0.1,
+      "step": 480
+    },
+    {
+      "epoch": 3.769230769230769,
+      "grad_norm": 0.21081575751304626,
+      "learning_rate": 4.9538461538461545e-06,
+      "loss": 0.069,
+      "step": 490
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.8678991198539734,
+      "learning_rate": 4.646153846153847e-06,
+      "loss": 0.1374,
+      "step": 500
+    },
+    {
+      "epoch": 3.9230769230769234,
+      "grad_norm": 0.20829035341739655,
+      "learning_rate": 4.338461538461539e-06,
+      "loss": 0.1311,
+      "step": 510
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.30338263511657715,
+      "learning_rate": 4.030769230769231e-06,
+      "loss": 0.0845,
+      "step": 520
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9924812030075187,
+      "eval_loss": 0.06546766310930252,
+      "eval_runtime": 0.5826,
+      "eval_samples_per_second": 228.276,
+      "eval_steps_per_second": 29.178,
+      "step": 520
+    },
+    {
+      "epoch": 4.076923076923077,
+      "grad_norm": 7.523567199707031,
+      "learning_rate": 3.723076923076923e-06,
+      "loss": 0.0997,
+      "step": 530
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 1.7107905149459839,
+      "learning_rate": 3.4153846153846154e-06,
+      "loss": 0.1668,
+      "step": 540
+    },
+    {
+      "epoch": 4.230769230769231,
+      "grad_norm": 0.3665030300617218,
+      "learning_rate": 3.1076923076923076e-06,
+      "loss": 0.1545,
+      "step": 550
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 1.344637155532837,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.0503,
+      "step": 560
+    },
+    {
+      "epoch": 4.384615384615385,
+      "grad_norm": 0.27009326219558716,
+      "learning_rate": 2.4923076923076926e-06,
+      "loss": 0.135,
+      "step": 570
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 0.2649720311164856,
+      "learning_rate": 2.184615384615385e-06,
+      "loss": 0.083,
+      "step": 580
+    },
+    {
+      "epoch": 4.538461538461538,
+      "grad_norm": 9.79839038848877,
+      "learning_rate": 1.876923076923077e-06,
+      "loss": 0.072,
+      "step": 590
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 2.8558285236358643,
+      "learning_rate": 1.5692307692307693e-06,
+      "loss": 0.0905,
+      "step": 600
+    },
+    {
+      "epoch": 4.6923076923076925,
+      "grad_norm": 5.410094738006592,
+      "learning_rate": 1.2615384615384616e-06,
+      "loss": 0.0874,
+      "step": 610
+    },
+    {
+      "epoch": 4.769230769230769,
+      "grad_norm": 0.26254087686538696,
+      "learning_rate": 9.53846153846154e-07,
+      "loss": 0.0866,
+      "step": 620
+    },
+    {
+      "epoch": 4.846153846153846,
+      "grad_norm": 0.2139281928539276,
+      "learning_rate": 6.461538461538462e-07,
+      "loss": 0.0662,
+      "step": 630
+    },
+    {
+      "epoch": 4.923076923076923,
+      "grad_norm": 0.23087060451507568,
+      "learning_rate": 3.3846153846153845e-07,
+      "loss": 0.0822,
+      "step": 640
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.618672788143158,
+      "learning_rate": 3.076923076923077e-08,
+      "loss": 0.1147,
+      "step": 650
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9774436090225563,
+      "eval_loss": 0.08272561430931091,
+      "eval_runtime": 0.6349,
+      "eval_samples_per_second": 209.467,
+      "eval_steps_per_second": 26.774,
+      "step": 650
+    },
+    {
+      "epoch": 5.0,
+      "step": 650,
+      "total_flos": 4.006371770595533e+17,
+      "train_loss": 0.0,
+      "train_runtime": 0.1521,
+      "train_samples_per_second": 33994.24,
+      "train_steps_per_second": 4273.937
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 650,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.006371770595533e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}