Training in progress, step 7500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52b997298d45a4fc6cd35ecfe5ccf8a749558ac28f75afb2d0909fe1d125004b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:1db6fd6ee1d14415c983da271a1a5fced7a19d546dcff5e9c52892498d1357ea
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f95ce72a1c3a7c4d5aab7200d9dec95f462be645783ddec5e51a5155488e47cc
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e5824e7895d4d885fcae3d6d27b58bf56f7ed9334ac10f6cfbd2e2106a176c
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:215f3ea94412e8b86475daca81b7346b3039dd518294dd8628b764b4fe24e130
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:636d50d708bc2858a479246fdb19d62e4927d92e0d54e0a5e51e6cc5b17b5a5c
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:517f7f125f44f7edc89c0d28a191b1cd6fb9d0b94d17a4ddcd53f5fcaa8aefcd
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:340279b529434b0154ba013e9a01bef12d3018e0cbfd933ce4ed580c0bdf70f8
 size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7df83cd74eb098f609a6963afc6cf853a656c30456c390df44a7c43c2165d798
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d034bc1613cdbec4742e0b9343e54d205e633fa15e81421b5d524ce6b4165764
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93f284fcd12d6e29e5cbdf1e4a0021a53156461eb5dba25291a9ab08dfb3c1a8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2541b57467e961f49663f187822c9553808b853819403f17ca1464ff8f14b868
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 7000,
-  "best_metric": 1.4396251440048218,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-7000",
-  "epoch": 0.5384201215291131,
   "eval_steps": 250,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1212,6 +1212,92 @@
       "eval_samples_per_second": 59.225,
       "eval_steps_per_second": 14.806,
       "step": 7000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 7500,
+  "best_metric": 1.424470067024231,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-7500",
+  "epoch": 0.5768787016383355,
   "eval_steps": 250,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.225,
       "eval_steps_per_second": 14.806,
       "step": 7000
+    },
+    {
+      "epoch": 0.5422659795400354,
+      "grad_norm": 1.6438534259796143,
+      "learning_rate": 0.00016600264914422253,
+      "loss": 1.4556,
+      "step": 7050
+    },
+    {
+      "epoch": 0.5461118375509576,
+      "grad_norm": 1.0202991962432861,
+      "learning_rate": 0.00016574292912240605,
+      "loss": 1.4659,
+      "step": 7100
+    },
+    {
+      "epoch": 0.5499576955618799,
+      "grad_norm": 1.1861631870269775,
+      "learning_rate": 0.0001654884035010259,
+      "loss": 1.4615,
+      "step": 7150
+    },
+    {
+      "epoch": 0.5538035535728021,
+      "grad_norm": 1.3344788551330566,
+      "learning_rate": 0.0001652286834792094,
+      "loss": 1.4654,
+      "step": 7200
+    },
+    {
+      "epoch": 0.5576494115837243,
+      "grad_norm": 1.6251221895217896,
+      "learning_rate": 0.00016496896345739295,
+      "loss": 1.5118,
+      "step": 7250
+    },
+    {
+      "epoch": 0.5576494115837243,
+      "eval_loss": 1.4305483102798462,
+      "eval_runtime": 16.9313,
+      "eval_samples_per_second": 59.062,
+      "eval_steps_per_second": 14.766,
+      "step": 7250
+    },
+    {
+      "epoch": 0.5614952695946466,
+      "grad_norm": 1.6725965738296509,
+      "learning_rate": 0.00016470924343557646,
+      "loss": 1.4391,
+      "step": 7300
+    },
+    {
+      "epoch": 0.5653411276055688,
+      "grad_norm": 1.2355259656906128,
+      "learning_rate": 0.00016444952341375998,
+      "loss": 1.4197,
+      "step": 7350
+    },
+    {
+      "epoch": 0.5691869856164911,
+      "grad_norm": 2.637535572052002,
+      "learning_rate": 0.0001641898033919435,
+      "loss": 1.4445,
+      "step": 7400
+    },
+    {
+      "epoch": 0.5730328436274132,
+      "grad_norm": 0.877162516117096,
+      "learning_rate": 0.000163930083370127,
+      "loss": 1.4575,
+      "step": 7450
+    },
+    {
+      "epoch": 0.5768787016383355,
+      "grad_norm": 1.3708187341690063,
+      "learning_rate": 0.00016367036334831052,
+      "loss": 1.4965,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5768787016383355,
+      "eval_loss": 1.424470067024231,
+      "eval_runtime": 16.8553,
+      "eval_samples_per_second": 59.328,
+      "eval_steps_per_second": 14.832,
+      "step": 7500
     }
   ],
   "logging_steps": 50,