Training in progress, step 23000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fc3712b1e057a16f372207b456fdeffd0c4bccabecebba6df60fbbd6e85f587
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:829898806c2cf797a60646c5ed75fbf0d1a577e9d79be79d379be1431ad4345b
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8c31ca9ad2774f0cf15399d81f8dcf836e50e2ce585665a25f067e60f94bcf7
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:314892f8ce2942ea9f92638fd38beb1039385352c76b29835054762eadd01ceb
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3d3278645373912f898a8fff510e120f19840077b176c8f23069af8f87b472e
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:332c8cdea66a1010f828c6ecd205e8e1ab1047e6bc38f9436e154fb2f1bf959d
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0edeec917b285b0e88139f206de61b3e301e9b677aa51d87d86f36aba6dd8e7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f21304ce44e93f8f86da1b431eb1e188b0a7d5ce22c8a8c84f5d679245daaffa
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c79688ba387f89ea391b599b05911ed6d3d3bf9d86de9e8c20288888353c0b1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e49d1b644e105b5cfb9b398b2668e7af4b7561d44b430dc9a36c09d64fe8801
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:605e1a7f916ea8b232a9d9961b8fcd6fb54050ae6ec5fb93bccd0252261b9e7d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9322bae8c5f36989bed1e15319c91ee4f9f6797c8ed15e1827437e61c8ea85d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 22250,
   "best_metric": 1.4596961736679077,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
-  "epoch": 1.7306361049150065,
   "eval_steps": 250,
-  "global_step": 22500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3878,6 +3878,92 @@
       "eval_samples_per_second": 56.127,
       "eval_steps_per_second": 14.032,
       "step": 22500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 22250,
   "best_metric": 1.4596961736679077,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
+  "epoch": 1.7690946850242288,
   "eval_steps": 250,
+  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.127,
       "eval_steps_per_second": 14.032,
       "step": 22500
+    },
+    {
+      "epoch": 1.734481962925929,
+      "grad_norm": 0.8531803488731384,
+      "learning_rate": 8.552580318416747e-05,
+      "loss": 1.4298,
+      "step": 22550
+    },
+    {
+      "epoch": 1.738327820936851,
+      "grad_norm": 1.3987632989883423,
+      "learning_rate": 8.526608316235098e-05,
+      "loss": 1.4629,
+      "step": 22600
+    },
+    {
+      "epoch": 1.7421736789477733,
+      "grad_norm": 1.4521870613098145,
+      "learning_rate": 8.500636314053451e-05,
+      "loss": 1.4005,
+      "step": 22650
+    },
+    {
+      "epoch": 1.7460195369586955,
+      "grad_norm": 1.0557054281234741,
+      "learning_rate": 8.474664311871803e-05,
+      "loss": 1.4079,
+      "step": 22700
+    },
+    {
+      "epoch": 1.7498653949696177,
+      "grad_norm": 1.5067927837371826,
+      "learning_rate": 8.448692309690155e-05,
+      "loss": 1.4664,
+      "step": 22750
+    },
+    {
+      "epoch": 1.7498653949696177,
+      "eval_loss": 1.4728831052780151,
+      "eval_runtime": 17.7456,
+      "eval_samples_per_second": 56.352,
+      "eval_steps_per_second": 14.088,
+      "step": 22750
+    },
+    {
+      "epoch": 1.75371125298054,
+      "grad_norm": 1.3237221240997314,
+      "learning_rate": 8.422720307508506e-05,
+      "loss": 1.5266,
+      "step": 22800
+    },
+    {
+      "epoch": 1.757557110991462,
+      "grad_norm": 1.4342700242996216,
+      "learning_rate": 8.396748305326859e-05,
+      "loss": 1.4929,
+      "step": 22850
+    },
+    {
+      "epoch": 1.7614029690023845,
+      "grad_norm": 5.2202534675598145,
+      "learning_rate": 8.37077630314521e-05,
+      "loss": 1.457,
+      "step": 22900
+    },
+    {
+      "epoch": 1.7652488270133067,
+      "grad_norm": 2.7584545612335205,
+      "learning_rate": 8.344804300963561e-05,
+      "loss": 1.4523,
+      "step": 22950
+    },
+    {
+      "epoch": 1.7690946850242288,
+      "grad_norm": 1.8208624124526978,
+      "learning_rate": 8.318832298781914e-05,
+      "loss": 1.4746,
+      "step": 23000
+    },
+    {
+      "epoch": 1.7690946850242288,
+      "eval_loss": 1.467396855354309,
+      "eval_runtime": 17.663,
+      "eval_samples_per_second": 56.616,
+      "eval_steps_per_second": 14.154,
+      "step": 23000
     }
   ],
   "logging_steps": 50,