Training in progress, step 5000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2da0677fa12d4198b9a2aefbc499f61536ce08274e2b77ec9742768adbc966b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccc114460bdc62c626ba50c920e272e7f575d8aeb0e2543e39fc6ee05fa17062
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d5cb22e083fb9b6ead9a6b9754983dfef6d4fd0258d21fc899979d4540b8ab1
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:50d17eabb10066129b6714ff713807dcb69661d9ef6abc8937da238409918435
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c840a4d894a9e893236ba3eb39bb9d761fb13f08794f23f4bb8cb0fa462367c
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f41eb4686c9fcfd89bdeef4e240aa2cba7d92d7862f3e09543657417b8a31b1f
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:770b1304c731c8aa940b69b50f7998667dba8e089ec052ddb586fa531ecef79d
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f90304776c4344263775ad85fa55a101daf353f68d13a5872b9fc01a14e2b3
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd3dca35f0088299a2a2e0ac814a4cd8b9d9681c16fef5ada156579adebbcb1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:429536711957c0df9399d6c91b39d43aa4faf1c40a0c6bae8287d373fb9daa66
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d1c26a223e581bb15f1e95b6c820cdf95e07905cfe02588473944a7fc241ee1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:17a4cf673b793da03b6c2fcc104b7095156a3747182923bcd50f7b981d959c40
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 4500,
-  "best_metric": 1.4980955123901367,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-4500",
-  "epoch": 0.3461272209830013,
   "eval_steps": 250,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -782,6 +782,92 @@
       "eval_samples_per_second": 59.456,
       "eval_steps_per_second": 14.864,
       "step": 4500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 5000,
+  "best_metric": 1.4847265481948853,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-5000",
+  "epoch": 0.3845858010922237,
   "eval_steps": 250,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.456,
       "eval_steps_per_second": 14.864,
       "step": 4500
+    },
+    {
+      "epoch": 0.34997307899392355,
+      "grad_norm": 1.2649528980255127,
+      "learning_rate": 0.00017898865023504662,
+      "loss": 1.551,
+      "step": 4550
+    },
+    {
+      "epoch": 0.3538189370048458,
+      "grad_norm": 1.403538703918457,
+      "learning_rate": 0.00017872893021323013,
+      "loss": 1.5004,
+      "step": 4600
+    },
+    {
+      "epoch": 0.35766479501576803,
+      "grad_norm": 1.5697741508483887,
+      "learning_rate": 0.00017846921019141367,
+      "loss": 1.5249,
+      "step": 4650
+    },
+    {
+      "epoch": 0.3615106530266903,
+      "grad_norm": 1.1718928813934326,
+      "learning_rate": 0.0001782094901695972,
+      "loss": 1.4532,
+      "step": 4700
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "grad_norm": 1.1711490154266357,
+      "learning_rate": 0.0001779497701477807,
+      "loss": 1.4466,
+      "step": 4750
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "eval_loss": 1.4999897480010986,
+      "eval_runtime": 16.924,
+      "eval_samples_per_second": 59.088,
+      "eval_steps_per_second": 14.772,
+      "step": 4750
+    },
+    {
+      "epoch": 0.3692023690485347,
+      "grad_norm": 1.130150556564331,
+      "learning_rate": 0.0001776900501259642,
+      "loss": 1.5159,
+      "step": 4800
+    },
+    {
+      "epoch": 0.37304822705945695,
+      "grad_norm": 1.564491629600525,
+      "learning_rate": 0.00017743033010414773,
+      "loss": 1.481,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3768940850703792,
+      "grad_norm": 2.652865409851074,
+      "learning_rate": 0.00017717061008233124,
+      "loss": 1.5012,
+      "step": 4900
+    },
+    {
+      "epoch": 0.38073994308130144,
+      "grad_norm": 1.3611321449279785,
+      "learning_rate": 0.00017691089006051478,
+      "loss": 1.4732,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "grad_norm": 1.3816261291503906,
+      "learning_rate": 0.0001766511700386983,
+      "loss": 1.4888,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "eval_loss": 1.4847265481948853,
+      "eval_runtime": 16.9023,
+      "eval_samples_per_second": 59.163,
+      "eval_steps_per_second": 14.791,
+      "step": 5000
     }
   ],
   "logging_steps": 50,