Training in progress, step 21000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fe29335718233e84f1e65e1e50047d21ed0639ab8d8950d51643ac36288179
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:8231b5839b3fd47ad5cce000da3f4e051d7af6920ced1cf4cb54e84597d2b4b4
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c45065f737f44883104a4351c674ace9478a208428702e003f4cf5e07e96452
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed47ddac3643ee93d1379696697c4c75dda7c0901e6d1bb4df3a71e2beb6b586
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dbffb5b9d940a96eb51dbe7a35860718ecfeca99437ad8b1b71dbafaefdd573
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c5132bfe30a63a6382081eeb67e311e07e2d98916afbc38ab8f8ba0c010b059
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:007715702cfbd38b6fa4b8b523a7e58a1cfb0651b5c1c69d07c436463e26a8bf
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bde6e1dd1720140d45bcd90f5619a65ccf408846b486bcff0e4f949114af183
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:780bb1353dd0d4e52605608cc24ae3410777df1acea35ed02a82bdb21fa7ba07
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f258c2638ad619fb6ebcf7d3e37d8ff87a3bfd1b69337c35619ebe6b4477e7f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 20250,
-  "best_metric": 1.4672300815582275,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-15500",
-  "epoch": 1.576801784478117,
   "eval_steps": 250,
-  "global_step": 20500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3534,6 +3534,92 @@
       "eval_samples_per_second": 55.433,
       "eval_steps_per_second": 13.858,
       "step": 20500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 21000,
+  "best_metric": 1.467063307762146,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-21000",
+  "epoch": 1.6152603645873396,
   "eval_steps": 250,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.433,
       "eval_steps_per_second": 13.858,
       "step": 20500
+    },
+    {
+      "epoch": 1.5806476424890392,
+      "grad_norm": 1.36208176612854,
+      "learning_rate": 3.480827910738575e-05,
+      "loss": 1.3615,
+      "step": 20550
+    },
+    {
+      "epoch": 1.5844935004999616,
+      "grad_norm": 1.6889315843582153,
+      "learning_rate": 3.455093562736664e-05,
+      "loss": 1.4174,
+      "step": 20600
+    },
+    {
+      "epoch": 1.5883393585108838,
+      "grad_norm": 1.2735401391983032,
+      "learning_rate": 3.429359214734752e-05,
+      "loss": 1.4482,
+      "step": 20650
+    },
+    {
+      "epoch": 1.592185216521806,
+      "grad_norm": 1.668188452720642,
+      "learning_rate": 3.4036248667328405e-05,
+      "loss": 1.4193,
+      "step": 20700
+    },
+    {
+      "epoch": 1.5960310745327284,
+      "grad_norm": 1.8626503944396973,
+      "learning_rate": 3.3778905187309284e-05,
+      "loss": 1.4477,
+      "step": 20750
+    },
+    {
+      "epoch": 1.5960310745327284,
+      "eval_loss": 1.4779850244522095,
+      "eval_runtime": 18.0373,
+      "eval_samples_per_second": 55.441,
+      "eval_steps_per_second": 13.86,
+      "step": 20750
+    },
+    {
+      "epoch": 1.5998769325436504,
+      "grad_norm": 1.2189550399780273,
+      "learning_rate": 3.352156170729017e-05,
+      "loss": 1.5325,
+      "step": 20800
+    },
+    {
+      "epoch": 1.6037227905545728,
+      "grad_norm": 2.126854658126831,
+      "learning_rate": 3.326421822727105e-05,
+      "loss": 1.5096,
+      "step": 20850
+    },
+    {
+      "epoch": 1.607568648565495,
+      "grad_norm": 1.7529182434082031,
+      "learning_rate": 3.300687474725194e-05,
+      "loss": 1.4629,
+      "step": 20900
+    },
+    {
+      "epoch": 1.6114145065764172,
+      "grad_norm": 2.2533035278320312,
+      "learning_rate": 3.2749531267232824e-05,
+      "loss": 1.4266,
+      "step": 20950
+    },
+    {
+      "epoch": 1.6152603645873396,
+      "grad_norm": 1.6632803678512573,
+      "learning_rate": 3.24921877872137e-05,
+      "loss": 1.5018,
+      "step": 21000
+    },
+    {
+      "epoch": 1.6152603645873396,
+      "eval_loss": 1.467063307762146,
+      "eval_runtime": 18.0767,
+      "eval_samples_per_second": 55.32,
+      "eval_steps_per_second": 13.83,
+      "step": 21000
     }
   ],
   "logging_steps": 50,