Training in progress, step 9000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ac9471fd5df30d3c5ea7544c71ea3e7cefb44f3fb9490b2909ef10388bce490
 size 14895064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7319cb689ba3e516dee8119d6166d02f60346a80b9407e1829e0eb7a9c7cf058
 size 14895064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d59192f8bbc2c6a84f768006dec09d697146bbe5c387df123b2916fcbd0ab943
 size 29912011

 version https://git-lfs.github.com/spec/v1
+oid sha256:28fc732bf1109f671d4c358012abdfc8822737d44a1596623d8cde2a2fb3947a
 size 29912011

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ab438fe94b3989ed8322d28570b903861ed0d770c25fa9ec9f46a8cab223787
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d37c363d72cc9de2f50d65bc99f818e3959d420932e0bc02d7eeef7adb2f100b
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9186fd1e64a1c1811e18ab635d1272734f47c9569eaa3cd8b4ec661120caca0d
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8e166b0e1532c50e06c9eed7d1cdc679b1c6021d721dee7e20d7bc2206cdce7
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77a6f2ecf1ccf7042296687a38ce67c7addcc2ead0ac8b4635abf563c9658325
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:014d66dbf58608e4fb1d45e02e80d4e24fcc03a53dcd66abd6565081b6009d7b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8888888888888888,
   "eval_steps": 1000,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -640,6 +640,85 @@
       "eval_samples_per_second": 11.685,
       "eval_steps_per_second": 1.461,
       "step": 8000
     }
   ],
   "logging_steps": 100,
@@ -654,12 +733,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.122565267390464e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0363333333333333,
   "eval_steps": 1000,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.685,
       "eval_steps_per_second": 1.461,
       "step": 8000
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 16.134510040283203,
+      "learning_rate": 1.2388931252988811e-06,
+      "loss": 0.1359,
+      "step": 8100
+    },
+    {
+      "epoch": 0.9111111111111111,
+      "grad_norm": 0.4015595018863678,
+      "learning_rate": 9.812981544816224e-07,
+      "loss": 0.1457,
+      "step": 8200
+    },
+    {
+      "epoch": 0.9222222222222223,
+      "grad_norm": 0.4668665826320648,
+      "learning_rate": 7.530286434071432e-07,
+      "loss": 0.1207,
+      "step": 8300
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 0.8954722285270691,
+      "learning_rate": 5.544365671162189e-07,
+      "loss": 0.1214,
+      "step": 8400
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 3.937987804412842,
+      "learning_rate": 3.8582814019624714e-07,
+      "loss": 0.1254,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9555555555555556,
+      "grad_norm": 0.34690240025520325,
+      "learning_rate": 2.474633446205554e-07,
+      "loss": 0.1347,
+      "step": 8600
+    },
+    {
+      "epoch": 1.003,
+      "grad_norm": 0.4924575388431549,
+      "learning_rate": 1.3955552887504387e-07,
+      "loss": 0.1372,
+      "step": 8700
+    },
+    {
+      "epoch": 1.0141111111111112,
+      "grad_norm": 5.0098772048950195,
+      "learning_rate": 6.227107899027696e-08,
+      "loss": 0.1612,
+      "step": 8800
+    },
+    {
+      "epoch": 1.0252222222222223,
+      "grad_norm": 0.7986459732055664,
+      "learning_rate": 1.572916198628649e-08,
+      "loss": 0.1477,
+      "step": 8900
+    },
+    {
+      "epoch": 1.0363333333333333,
+      "grad_norm": 0.36028048396110535,
+      "learning_rate": 1.5421256671643848e-12,
+      "loss": 0.1418,
+      "step": 9000
+    },
+    {
+      "epoch": 1.0363333333333333,
+      "eval_loss": 0.3109706938266754,
+      "eval_mean_iou": 0.3996240933787572,
+      "eval_runtime": 16.6041,
+      "eval_samples_per_second": 12.045,
+      "eval_steps_per_second": 1.506,
+      "step": 9000
     }
   ],
   "logging_steps": 100,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2627280650735452e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null