Training in progress, step 12000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66d99b0cb397502b025a6c7417fc75e69557e2db9d4b2101658c2730782a54e5
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:da26990df234d94448e406f402bbaab14595948f6b2bb6aaf6233e11502b39c8
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eacebe9389e2329614f557172e304528d2b5b66f68c1b3c5e68453452e430f51
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fd8f2ea0f8f3f2b6317bf012fe6c554f0ab9b95b3c3bc864dd5cae3b6eef992
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a032319df626b2b110bd852b78fc23d492586d6fccaeb0841874a11adbfaea49
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:70a89db0f278efb20b8c741665f32f39c512b7877cd595dd7f15cfb9e97916f3
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a16095fe7c7a01fb5cdfa33bc3b7f9026f465c5d2d551f188966908ce9a84c9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1696a7b978a5af1f9de4c1c4ce7f56376b2325426ded966dd6d734962f026c10
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2124619b96ef0628e278d9139421c199b6678f87b3a0cfd00afb352c22439c91
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f076f7a63b00dbdf4d7a2eb7609297124339e4b64abf631b5119fa735b47e6a
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:129303cede08862e45aff723e13523f2863b1a8c5dd6144e719bcbf05975af10
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7a1d25be56e05cb4cbafc0981ade0df33b24e8c1de440cdbae85f1fea41cdfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 11500,
-  "best_metric": 1.3371928930282593,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11500",
-  "epoch": 0.8845473425121144,
   "eval_steps": 250,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1986,6 +1986,92 @@
       "eval_samples_per_second": 59.282,
       "eval_steps_per_second": 14.821,
       "step": 11500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 12000,
+  "best_metric": -30.337785720825195,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-12000",
+  "epoch": 0.9230059226213368,
   "eval_steps": 250,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.282,
       "eval_steps_per_second": 14.821,
       "step": 11500
+    },
+    {
+      "epoch": 0.8883932005230367,
+      "grad_norm": 2.3821170330047607,
+      "learning_rate": 0.00014264343038204814,
+      "loss": 1.4094,
+      "step": 11550
+    },
+    {
+      "epoch": 0.8922390585339589,
+      "grad_norm": 1.0703688859939575,
+      "learning_rate": 0.00014238371036023168,
+      "loss": 1.3967,
+      "step": 11600
+    },
+    {
+      "epoch": 0.8960849165448812,
+      "grad_norm": 0.9679076075553894,
+      "learning_rate": 0.0001421239903384152,
+      "loss": 1.3855,
+      "step": 11650
+    },
+    {
+      "epoch": 0.8999307745558034,
+      "grad_norm": 1.2558847665786743,
+      "learning_rate": 0.00014186427031659873,
+      "loss": 1.3501,
+      "step": 11700
+    },
+    {
+      "epoch": 0.9037766325667257,
+      "grad_norm": 2.6319808959960938,
+      "learning_rate": 0.00014160455029478224,
+      "loss": -15.5666,
+      "step": 11750
+    },
+    {
+      "epoch": 0.9037766325667257,
+      "eval_loss": -26.468090057373047,
+      "eval_runtime": 16.5143,
+      "eval_samples_per_second": 60.554,
+      "eval_steps_per_second": 15.138,
+      "step": 11750
+    },
+    {
+      "epoch": 0.9076224905776479,
+      "grad_norm": 2.3091208934783936,
+      "learning_rate": 0.00014134483027296576,
+      "loss": -28.8843,
+      "step": 11800
+    },
+    {
+      "epoch": 0.9114683485885701,
+      "grad_norm": 1.527166724205017,
+      "learning_rate": 0.00014108511025114927,
+      "loss": -30.1099,
+      "step": 11850
+    },
+    {
+      "epoch": 0.9153142065994924,
+      "grad_norm": 3.9258713722229004,
+      "learning_rate": 0.00014082539022933278,
+      "loss": -30.2295,
+      "step": 11900
+    },
+    {
+      "epoch": 0.9191600646104146,
+      "grad_norm": 1.618696928024292,
+      "learning_rate": 0.0001405656702075163,
+      "loss": -30.2778,
+      "step": 11950
+    },
+    {
+      "epoch": 0.9230059226213368,
+      "grad_norm": 1.5081305503845215,
+      "learning_rate": 0.00014030595018569984,
+      "loss": -30.3095,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9230059226213368,
+      "eval_loss": -30.337785720825195,
+      "eval_runtime": 16.3273,
+      "eval_samples_per_second": 61.247,
+      "eval_steps_per_second": 15.312,
+      "step": 12000
     }
   ],
   "logging_steps": 50,