Training in progress, step 10000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b9baf2c6ba5ebbe672256c852fecb5f216fb3f2e6bf3f464d3b0a62f927a601
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb0e3c8eeaeaaeed92b7974a796b8555d972ab04a230ed8a0aa39040f919522e
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40db6775badf11b35e39be49c6fef0bc883f3580d3d852ee11aee4261d7eedd
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbc9386aa433cf09ea700ba9554d99ebbf74421553fda8c6e9f15d579ffea58d
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71923ca4e5165f8d69e24064ca7c57c4feab7a075d2d60f03dd76eb79c8d3ad8
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:845a998395b0eed3947658b954a32b49a265bc7bcb21586d38b38bbd5b7b0ca3
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:632e9f7e063df82f0a0f7f24d19a972e733d8fb69f46a15890d826ee60504fae
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:45788da03bae97e95c3537137dc4032cafd5cea57659195759c4661fda86a92e
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:599596a3cb79dad5f0353c782d77b8e23494fd9a0c28c4b3bdb9f32604aafb58
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:59deba323ff65998dc2bdf22d9e342db9cffc30bd0e70e0e297b662f8184f414
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37b10e7fbb18174f6f934d4c5e8eb4aeea59a6280951bc7b58e46146366fc7ea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab5aa9661d156b69bcd5976a8b5f6e5eaf3f91f473a83c47e1ba991c358f74ef
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 9500,
-  "best_metric": 1.382208228111267,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-9500",
-  "epoch": 0.7307130220752249,
   "eval_steps": 250,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1642,6 +1642,92 @@
       "eval_samples_per_second": 59.205,
       "eval_steps_per_second": 14.801,
       "step": 9500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 10000,
+  "best_metric": 1.36810302734375,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10000",
+  "epoch": 0.7691716021844474,
   "eval_steps": 250,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.205,
       "eval_steps_per_second": 14.801,
       "step": 9500
+    },
+    {
+      "epoch": 0.7345588800861472,
+      "grad_norm": 1.0704309940338135,
+      "learning_rate": 0.00015302184245383479,
+      "loss": 1.3428,
+      "step": 9550
+    },
+    {
+      "epoch": 0.7384047380970694,
+      "grad_norm": 1.3625832796096802,
+      "learning_rate": 0.00015276212243201827,
+      "loss": 1.3911,
+      "step": 9600
+    },
+    {
+      "epoch": 0.7422505961079917,
+      "grad_norm": 0.836138129234314,
+      "learning_rate": 0.0001525024024102018,
+      "loss": 1.3729,
+      "step": 9650
+    },
+    {
+      "epoch": 0.7460964541189139,
+      "grad_norm": 1.6029527187347412,
+      "learning_rate": 0.00015224268238838532,
+      "loss": 1.3314,
+      "step": 9700
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "grad_norm": 0.9241604804992676,
+      "learning_rate": 0.00015198296236656884,
+      "loss": 1.3965,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "eval_loss": 1.3779255151748657,
+      "eval_runtime": 17.0161,
+      "eval_samples_per_second": 58.768,
+      "eval_steps_per_second": 14.692,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7537881701407584,
+      "grad_norm": 1.1483672857284546,
+      "learning_rate": 0.00015172324234475238,
+      "loss": 1.3462,
+      "step": 9800
+    },
+    {
+      "epoch": 0.7576340281516807,
+      "grad_norm": 0.5047497153282166,
+      "learning_rate": 0.0001514635223229359,
+      "loss": 1.364,
+      "step": 9850
+    },
+    {
+      "epoch": 0.7614798861626029,
+      "grad_norm": 1.240676760673523,
+      "learning_rate": 0.0001512038023011194,
+      "loss": 1.3563,
+      "step": 9900
+    },
+    {
+      "epoch": 0.7653257441735252,
+      "grad_norm": 1.3579591512680054,
+      "learning_rate": 0.00015094408227930292,
+      "loss": 1.3661,
+      "step": 9950
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "grad_norm": 1.318456768989563,
+      "learning_rate": 0.00015068436225748643,
+      "loss": 1.4326,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "eval_loss": 1.36810302734375,
+      "eval_runtime": 16.8388,
+      "eval_samples_per_second": 59.387,
+      "eval_steps_per_second": 14.847,
+      "step": 10000
     }
   ],
   "logging_steps": 50,