WT-MM
/

vit-base-blur

+{
+    "epoch": 10.0,
+    "total_flos": 5.354696482368307e+17,
+    "train_loss": 0.011267724910496988,
+    "train_runtime": 422.1478,
+    "train_samples_per_second": 16.369,
+    "train_steps_per_second": 1.042
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 5.354696482368307e+17,
+    "train_loss": 0.011267724910496988,
+    "train_runtime": 422.1478,
+    "train_samples_per_second": 16.369,
+    "train_steps_per_second": 1.042
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,325 @@

+{
+  "best_metric": 0.0006729721208103001,
+  "best_model_checkpoint": "./vit-base-blur/checkpoint-400",
+  "epoch": 10.0,
+  "global_step": 440,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019545454545454548,
+      "loss": 0.0392,
+      "step": 10
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019090909090909092,
+      "loss": 0.1092,
+      "step": 20
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018636363636363636,
+      "loss": 0.064,
+      "step": 30
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 0.0254,
+      "step": 40
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00017727272727272728,
+      "loss": 0.0662,
+      "step": 50
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00017272727272727275,
+      "loss": 0.0306,
+      "step": 60
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0001681818181818182,
+      "loss": 0.0073,
+      "step": 70
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00016363636363636366,
+      "loss": 0.0231,
+      "step": 80
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0001590909090909091,
+      "loss": 0.0029,
+      "step": 90
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.00015454545454545454,
+      "loss": 0.0027,
+      "step": 100
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 0.987012987012987,
+      "eval_loss": 0.05653372034430504,
+      "eval_runtime": 2.757,
+      "eval_samples_per_second": 27.928,
+      "eval_steps_per_second": 3.627,
+      "step": 100
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.0022,
+      "step": 110
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00014545454545454546,
+      "loss": 0.0226,
+      "step": 120
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00014090909090909093,
+      "loss": 0.02,
+      "step": 130
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 0.00013636363636363637,
+      "loss": 0.0137,
+      "step": 140
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.0001318181818181818,
+      "loss": 0.0016,
+      "step": 150
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00012727272727272728,
+      "loss": 0.0016,
+      "step": 160
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.00012272727272727272,
+      "loss": 0.037,
+      "step": 170
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.0001181818181818182,
+      "loss": 0.0016,
+      "step": 180
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.00011363636363636365,
+      "loss": 0.0041,
+      "step": 190
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 0.00010909090909090909,
+      "loss": 0.0013,
+      "step": 200
+    },
+    {
+      "epoch": 4.55,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.001206980086863041,
+      "eval_runtime": 2.4286,
+      "eval_samples_per_second": 31.706,
+      "eval_steps_per_second": 4.118,
+      "step": 200
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 0.00010454545454545455,
+      "loss": 0.0012,
+      "step": 210
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 220
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 9.545454545454546e-05,
+      "loss": 0.0011,
+      "step": 230
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 0.001,
+      "step": 240
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 8.636363636363637e-05,
+      "loss": 0.001,
+      "step": 250
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 8.181818181818183e-05,
+      "loss": 0.0009,
+      "step": 260
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 7.727272727272727e-05,
+      "loss": 0.0009,
+      "step": 270
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 7.272727272727273e-05,
+      "loss": 0.0009,
+      "step": 280
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 6.818181818181818e-05,
+      "loss": 0.0008,
+      "step": 290
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 6.363636363636364e-05,
+      "loss": 0.0008,
+      "step": 300
+    },
+    {
+      "epoch": 6.82,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0008008014992810786,
+      "eval_runtime": 1.9546,
+      "eval_samples_per_second": 39.395,
+      "eval_steps_per_second": 5.116,
+      "step": 300
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 5.90909090909091e-05,
+      "loss": 0.0008,
+      "step": 310
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 5.4545454545454546e-05,
+      "loss": 0.0008,
+      "step": 320
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 5e-05,
+      "loss": 0.0007,
+      "step": 330
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.0007,
+      "step": 340
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 4.0909090909090915e-05,
+      "loss": 0.0007,
+      "step": 350
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 0.0007,
+      "step": 360
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 3.181818181818182e-05,
+      "loss": 0.0007,
+      "step": 370
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 2.7272727272727273e-05,
+      "loss": 0.0007,
+      "step": 380
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 0.0007,
+      "step": 390
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 0.0007,
+      "step": 400
+    },
+    {
+      "epoch": 9.09,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0006729721208103001,
+      "eval_runtime": 1.9389,
+      "eval_samples_per_second": 39.714,
+      "eval_steps_per_second": 5.158,
+      "step": 400
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.3636363636363637e-05,
+      "loss": 0.0007,
+      "step": 410
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.0007,
+      "step": 420
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 4.5454545454545455e-06,
+      "loss": 0.0007,
+      "step": 430
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0,
+      "loss": 0.0007,
+      "step": 440
+    },
+    {
+      "epoch": 10.0,
+      "step": 440,
+      "total_flos": 5.354696482368307e+17,
+      "train_loss": 0.011267724910496988,
+      "train_runtime": 422.1478,
+      "train_samples_per_second": 16.369,
+      "train_steps_per_second": 1.042
+    }
+  ],
+  "max_steps": 440,
+  "num_train_epochs": 10,
+  "total_flos": 5.354696482368307e+17,
+  "trial_name": null,
+  "trial_params": null
+}