Training in progress, epoch 0

Browse files

Files changed (5) hide show

all_results.json +4 -4
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +62 -62
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 8.0,
     "total_flos": 3.121999450369229e+16,
-    "train_loss": 0.9097571969032288,
-    "train_runtime": 20.8735,
-    "train_samples_per_second": 75.215,
-    "train_steps_per_second": 0.479
 }

 {
     "epoch": 8.0,
     "total_flos": 3.121999450369229e+16,
+    "train_loss": 0.3916594386100769,
+    "train_runtime": 22.6465,
+    "train_samples_per_second": 69.326,
+    "train_steps_per_second": 0.442
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:618448ea8b09686f397ca2cfc5bd546a7d1d7dda2e9f27f2444db833e16103ce
 size 110345908

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c9b7c846af195b3ff69a581a04af42f33487a5e009c549bf8cc81dcb93fdb43
 size 110345908

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 8.0,
     "total_flos": 3.121999450369229e+16,
-    "train_loss": 0.9097571969032288,
-    "train_runtime": 20.8735,
-    "train_samples_per_second": 75.215,
-    "train_steps_per_second": 0.479
 }

 {
     "epoch": 8.0,
     "total_flos": 3.121999450369229e+16,
+    "train_loss": 0.3916594386100769,
+    "train_runtime": 22.6465,
+    "train_samples_per_second": 69.326,
+    "train_steps_per_second": 0.442
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.8484848484848485,
-  "best_model_checkpoint": "/kaggle/working/swin-brain-plane-classification/checkpoint-10",
   "epoch": 8.0,
   "eval_steps": 500,
   "global_step": 10,
@@ -10,140 +10,140 @@
   "log_history": [
     {
       "epoch": 0.8,
-      "grad_norm": 5.878930568695068,
       "learning_rate": 5e-05,
-      "loss": 1.5198,
       "step": 1
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.24242424242424243,
-      "eval_loss": 1.2785723209381104,
-      "eval_runtime": 0.1966,
-      "eval_samples_per_second": 167.856,
-      "eval_steps_per_second": 10.173,
       "step": 1
     },
     {
       "epoch": 1.6,
-      "grad_norm": 7.667544841766357,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 1.4251,
       "step": 2
     },
     {
       "epoch": 1.6,
-      "eval_accuracy": 0.5151515151515151,
-      "eval_loss": 1.027370572090149,
-      "eval_runtime": 0.2035,
-      "eval_samples_per_second": 162.152,
-      "eval_steps_per_second": 9.827,
       "step": 2
     },
     {
       "epoch": 2.4,
-      "grad_norm": 7.181507587432861,
       "learning_rate": 3.888888888888889e-05,
-      "loss": 1.2808,
       "step": 3
     },
     {
       "epoch": 2.4,
-      "eval_accuracy": 0.5454545454545454,
-      "eval_loss": 0.9328542351722717,
-      "eval_runtime": 0.1968,
-      "eval_samples_per_second": 167.67,
-      "eval_steps_per_second": 10.162,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.0301384925842285,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.5728,
       "step": 5
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.696969696969697,
-      "eval_loss": 0.7996734976768494,
-      "eval_runtime": 0.2395,
-      "eval_samples_per_second": 137.809,
-      "eval_steps_per_second": 8.352,
       "step": 5
     },
     {
       "epoch": 4.8,
-      "grad_norm": 5.295766353607178,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 1.0285,
       "step": 6
     },
     {
       "epoch": 4.8,
-      "eval_accuracy": 0.8181818181818182,
-      "eval_loss": 0.7359862327575684,
-      "eval_runtime": 0.1935,
-      "eval_samples_per_second": 170.512,
-      "eval_steps_per_second": 10.334,
       "step": 6
     },
     {
       "epoch": 5.6,
-      "grad_norm": 5.034783363342285,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.9435,
       "step": 7
     },
     {
       "epoch": 5.6,
-      "eval_accuracy": 0.8181818181818182,
-      "eval_loss": 0.6815890669822693,
-      "eval_runtime": 0.2079,
-      "eval_samples_per_second": 158.746,
-      "eval_steps_per_second": 9.621,
       "step": 7
     },
     {
       "epoch": 6.4,
-      "grad_norm": 4.618497848510742,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.8821,
       "step": 8
     },
     {
       "epoch": 6.4,
-      "eval_accuracy": 0.8181818181818182,
-      "eval_loss": 0.6379525065422058,
-      "eval_runtime": 0.1974,
-      "eval_samples_per_second": 167.211,
-      "eval_steps_per_second": 10.134,
       "step": 8
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.643581390380859,
       "learning_rate": 0.0,
-      "loss": 0.4361,
       "step": 10
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8484848484848485,
-      "eval_loss": 0.5965157151222229,
-      "eval_runtime": 0.1934,
-      "eval_samples_per_second": 170.622,
-      "eval_steps_per_second": 10.341,
       "step": 10
     },
     {
       "epoch": 8.0,
       "step": 10,
       "total_flos": 3.121999450369229e+16,
-      "train_loss": 0.9097571969032288,
-      "train_runtime": 20.8735,
-      "train_samples_per_second": 75.215,
-      "train_steps_per_second": 0.479
     }
   ],
   "logging_steps": 1,

 {
+  "best_metric": 0.9696969696969697,
+  "best_model_checkpoint": "/kaggle/working/swin-brain-plane-classification/checkpoint-6",
   "epoch": 8.0,
   "eval_steps": 500,
   "global_step": 10,
   "log_history": [
     {
       "epoch": 0.8,
+      "grad_norm": 4.3462605476379395,
       "learning_rate": 5e-05,
+      "loss": 0.7819,
       "step": 1
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.8484848484848485,
+      "eval_loss": 0.5965157151222229,
+      "eval_runtime": 0.2012,
+      "eval_samples_per_second": 164.047,
+      "eval_steps_per_second": 9.942,
       "step": 1
     },
     {
       "epoch": 1.6,
+      "grad_norm": 4.70327091217041,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.689,
       "step": 2
     },
     {
       "epoch": 1.6,
+      "eval_accuracy": 0.8484848484848485,
+      "eval_loss": 0.5047040581703186,
+      "eval_runtime": 0.1988,
+      "eval_samples_per_second": 165.985,
+      "eval_steps_per_second": 10.06,
       "step": 2
     },
     {
       "epoch": 2.4,
+      "grad_norm": 5.389795780181885,
       "learning_rate": 3.888888888888889e-05,
+      "loss": 0.58,
       "step": 3
     },
     {
       "epoch": 2.4,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.3954509198665619,
+      "eval_runtime": 0.196,
+      "eval_samples_per_second": 168.338,
+      "eval_steps_per_second": 10.202,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "grad_norm": 4.907708644866943,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2252,
       "step": 5
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9393939393939394,
+      "eval_loss": 0.2680495083332062,
+      "eval_runtime": 0.2061,
+      "eval_samples_per_second": 160.109,
+      "eval_steps_per_second": 9.704,
       "step": 5
     },
     {
       "epoch": 4.8,
+      "grad_norm": 6.3704328536987305,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3826,
       "step": 6
     },
     {
       "epoch": 4.8,
+      "eval_accuracy": 0.9696969696969697,
+      "eval_loss": 0.2426709532737732,
+      "eval_runtime": 0.2047,
+      "eval_samples_per_second": 161.236,
+      "eval_steps_per_second": 9.772,
       "step": 6
     },
     {
       "epoch": 5.6,
+      "grad_norm": 5.068804740905762,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.3551,
       "step": 7
     },
     {
       "epoch": 5.6,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.22610554099082947,
+      "eval_runtime": 0.2073,
+      "eval_samples_per_second": 159.187,
+      "eval_steps_per_second": 9.648,
       "step": 7
     },
     {
       "epoch": 6.4,
+      "grad_norm": 3.142571449279785,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3171,
       "step": 8
     },
     {
       "epoch": 6.4,
+      "eval_accuracy": 0.9393939393939394,
+      "eval_loss": 0.21792414784431458,
+      "eval_runtime": 0.1962,
+      "eval_samples_per_second": 168.154,
+      "eval_steps_per_second": 10.191,
       "step": 8
     },
     {
       "epoch": 8.0,
+      "grad_norm": 4.538871765136719,
       "learning_rate": 0.0,
+      "loss": 0.1802,
       "step": 10
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9393939393939394,
+      "eval_loss": 0.21566466987133026,
+      "eval_runtime": 0.219,
+      "eval_samples_per_second": 150.655,
+      "eval_steps_per_second": 9.131,
       "step": 10
     },
     {
       "epoch": 8.0,
       "step": 10,
       "total_flos": 3.121999450369229e+16,
+      "train_loss": 0.3916594386100769,
+      "train_runtime": 22.6465,
+      "train_samples_per_second": 69.326,
+      "train_steps_per_second": 0.442
     }
   ],
   "logging_steps": 1,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:160d2ff7f7aba7fbd1a945d5919ab9a2b355aa60da4419b36050aa28fc4acb0f
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:18d7d09a2564e2fe2dc5fecbaf35fd9a2f15b628751efe8e90ee4aa98a26317d
 size 5240