hchcsuim
/

detr-resnet-50_finetuned_cppe5

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
     "total_flos": 9.4894217943552e+17,
-    "train_loss": 1.8031856994628905,
-    "train_runtime": 142.4314,
-    "train_samples_per_second": 13.944,
-    "train_steps_per_second": 1.755
 }

 {
     "epoch": 2.0,
     "total_flos": 9.4894217943552e+17,
+    "train_loss": 2.5065918884277343,
+    "train_runtime": 246.2795,
+    "train_samples_per_second": 8.064,
+    "train_steps_per_second": 1.015
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
     "total_flos": 9.4894217943552e+17,
-    "train_loss": 1.8031856994628905,
-    "train_runtime": 142.4314,
-    "train_samples_per_second": 13.944,
-    "train_steps_per_second": 1.755
 }

 {
     "epoch": 2.0,
     "total_flos": 9.4894217943552e+17,
+    "train_loss": 2.5065918884277343,
+    "train_runtime": 246.2795,
+    "train_samples_per_second": 8.064,
+    "train_steps_per_second": 1.015
 }

trainer_state.json CHANGED Viewed

@@ -10,54 +10,54 @@
   "log_history": [
     {
       "epoch": 0.4,
-      "grad_norm": 30.619651794433594,
-      "learning_rate": 8.16e-06,
-      "loss": 1.8291,
       "step": 50
     },
     {
       "epoch": 0.8,
-      "grad_norm": 155.9861297607422,
-      "learning_rate": 6.24e-06,
-      "loss": 1.8251,
       "step": 100
     },
     {
       "epoch": 1.2,
-      "grad_norm": 59.954654693603516,
-      "learning_rate": 4.2800000000000005e-06,
-      "loss": 1.8171,
       "step": 150
     },
     {
       "epoch": 1.6,
-      "grad_norm": 32.81400680541992,
-      "learning_rate": 2.28e-06,
-      "loss": 1.7688,
       "step": 200
     },
     {
       "epoch": 2.0,
-      "grad_norm": 64.24483489990234,
-      "learning_rate": 2.8e-07,
-      "loss": 1.7759,
       "step": 250
     },
     {
       "epoch": 2.0,
       "step": 250,
       "total_flos": 9.4894217943552e+17,
-      "train_loss": 1.8031856994628905,
-      "train_runtime": 142.4314,
-      "train_samples_per_second": 13.944,
-      "train_steps_per_second": 1.755
     }
   ],
   "logging_steps": 50,
   "max_steps": 250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "log_history": [
     {
       "epoch": 0.4,
+      "grad_norm": 83.9439697265625,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 3.2962,
       "step": 50
     },
     {
       "epoch": 0.8,
+      "grad_norm": 82.1087417602539,
+      "learning_rate": 3.466666666666667e-05,
+      "loss": 2.6118,
       "step": 100
     },
     {
       "epoch": 1.2,
+      "grad_norm": 99.78679656982422,
+      "learning_rate": 2.3555555555555556e-05,
+      "loss": 2.4529,
       "step": 150
     },
     {
       "epoch": 1.6,
+      "grad_norm": 94.11151885986328,
+      "learning_rate": 1.2444444444444445e-05,
+      "loss": 2.1187,
       "step": 200
     },
     {
       "epoch": 2.0,
+      "grad_norm": 85.35782623291016,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 2.0534,
       "step": 250
     },
     {
       "epoch": 2.0,
       "step": 250,
       "total_flos": 9.4894217943552e+17,
+      "train_loss": 2.5065918884277343,
+      "train_runtime": 246.2795,
+      "train_samples_per_second": 8.064,
+      "train_steps_per_second": 1.015
     }
   ],
   "logging_steps": 50,
   "max_steps": 250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {