Training in progress, step 1000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a70960e467e676b90144713022e46aa69c5ca8b0e49c3cd64a4b2cb15d3463b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ea70ab5c294f3be223b52902ee924adb6f2a217f316a909c64447e3b17f8f8
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f88c5a734e44e19d873b7adfd0e045a5b67fe23f3344e1a268e224a99bd1d70
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa476b430a4a63248ac2bc81d08a889c28813dea25aaa9356f70340bb7c10542
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d00cc8448e3ffb4901f6ba77807b5c278ba2af145c1beeacecc1ec2179e63f6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bd88c5d89e3266252b8212d40d27f742ba6d2099c1dc476b1334d403bca3f20
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d01e16c94aee5450e377f4194f775d8cce79e9f0c74ea0606196986861ea7382
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:23b493d7ad156dc53747ae8d013133956196b2f038f30fe21dd5039c094ada9d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd050da654df5cc16f1f9d1ac6bd87a28afafb4e6eaf39ce1f092a8c1e73672
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d109e68a9027ba37776e3e3b4c867f8592e84e6e4f33bcbb6b2e5ff20129448
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 500,
-  "best_metric": 4.9789862632751465,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-500",
-  "epoch": 0.038458580109222366,
   "eval_steps": 250,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -94,6 +94,92 @@
       "eval_samples_per_second": 52.975,
       "eval_steps_per_second": 13.244,
       "step": 500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 1000,
+  "best_metric": 4.709664344787598,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-1000",
+  "epoch": 0.07691716021844473,
   "eval_steps": 250,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.975,
       "eval_steps_per_second": 13.244,
       "step": 500
+    },
+    {
+      "epoch": 0.0423044381201446,
+      "grad_norm": 6.3689374923706055,
+      "learning_rate": 0.00013771478989743022,
+      "loss": 4.9228,
+      "step": 550
+    },
+    {
+      "epoch": 0.04615029613106684,
+      "grad_norm": 3.9407873153686523,
+      "learning_rate": 0.0001374574464174111,
+      "loss": 4.976,
+      "step": 600
+    },
+    {
+      "epoch": 0.04999615414198908,
+      "grad_norm": 4.298041343688965,
+      "learning_rate": 0.00013720010293739198,
+      "loss": 4.6802,
+      "step": 650
+    },
+    {
+      "epoch": 0.05384201215291132,
+      "grad_norm": 3.756016492843628,
+      "learning_rate": 0.0001369427594573729,
+      "loss": 4.7095,
+      "step": 700
+    },
+    {
+      "epoch": 0.05768787016383355,
+      "grad_norm": 4.344913959503174,
+      "learning_rate": 0.00013668541597735377,
+      "loss": 4.8664,
+      "step": 750
+    },
+    {
+      "epoch": 0.05768787016383355,
+      "eval_loss": 4.762838363647461,
+      "eval_runtime": 18.772,
+      "eval_samples_per_second": 53.271,
+      "eval_steps_per_second": 13.318,
+      "step": 750
+    },
+    {
+      "epoch": 0.06153372817475579,
+      "grad_norm": 4.1537275314331055,
+      "learning_rate": 0.00013642807249733465,
+      "loss": 4.9688,
+      "step": 800
+    },
+    {
+      "epoch": 0.06537958618567802,
+      "grad_norm": 4.85400915145874,
+      "learning_rate": 0.00013617072901731553,
+      "loss": 4.8658,
+      "step": 850
+    },
+    {
+      "epoch": 0.06922544419660026,
+      "grad_norm": 4.026614189147949,
+      "learning_rate": 0.0001359133855372964,
+      "loss": 4.893,
+      "step": 900
+    },
+    {
+      "epoch": 0.0730713022075225,
+      "grad_norm": 3.84721040725708,
+      "learning_rate": 0.0001356560420572773,
+      "loss": 4.6926,
+      "step": 950
+    },
+    {
+      "epoch": 0.07691716021844473,
+      "grad_norm": 9.182045936584473,
+      "learning_rate": 0.00013539869857725817,
+      "loss": 4.881,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07691716021844473,
+      "eval_loss": 4.709664344787598,
+      "eval_runtime": 18.8053,
+      "eval_samples_per_second": 53.177,
+      "eval_steps_per_second": 13.294,
+      "step": 1000
     }
   ],
   "logging_steps": 50,