Training in progress, step 37000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f00ee81c87f16a8bdea12f78335f236b7be0e12be02042e846ac3c0d151355c
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9cae79982037b0452f88044e66e5767215389fccb1f927236fe4f45e26d9504
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efdccb23bf5e306d948f48beb9315429633d26670a250b2f01f01a906be73107
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:54bc70c1b2659e8cf4a531b6927e07e28f599374e8be262691d66ada5fbe0c3e
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d4a503089b873fa58fe7ad923dc676b15a066d799ced08a885cce4c8b7d5b5a
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4200f071699c851f6d878a635058a9544f3a748301e98f6330acbcbe7627da2
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5d0f591d999e8283f8ffbd498c9dcefdfec3c57a9cf9cddf8c2ec79814e55a9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6364eda1ec8fc4c6324fd5a2a0079028d1479286c7c9330101ded35fc9bcedd3
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6a361b5fce627657860521eb50e2574f27b2d4131fa370a849ae347ab3399c1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0470b2f59ff591bc600871f7546ce2622ab2681c7ababfb55c537235153f145
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cf91a495853427b5f841ab1be3c35766ad0edbc12ff06e2c15160a47811ed22
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 36500,
-  "best_metric": -30.47022247314453,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-36500",
-  "epoch": 2.8074763479732328,
   "eval_steps": 250,
-  "global_step": 36500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6286,6 +6286,92 @@
       "eval_samples_per_second": 59.248,
       "eval_steps_per_second": 14.812,
       "step": 36500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 36750,
+  "best_metric": -30.470460891723633,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-36500",
+  "epoch": 2.845934928082455,
   "eval_steps": 250,
+  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.248,
       "eval_steps_per_second": 14.812,
       "step": 36500
+    },
+    {
+      "epoch": 2.811322205984155,
+      "grad_norm": 0.8461622595787048,
+      "learning_rate": 1.2824974677297874e-05,
+      "loss": -30.466,
+      "step": 36550
+    },
+    {
+      "epoch": 2.8151680639950776,
+      "grad_norm": 1.3280683755874634,
+      "learning_rate": 1.2565254655481392e-05,
+      "loss": -30.466,
+      "step": 36600
+    },
+    {
+      "epoch": 2.8190139220059995,
+      "grad_norm": 1.5778801441192627,
+      "learning_rate": 1.230553463366491e-05,
+      "loss": -30.4659,
+      "step": 36650
+    },
+    {
+      "epoch": 2.8228597800169215,
+      "grad_norm": 1.6054023504257202,
+      "learning_rate": 1.204581461184843e-05,
+      "loss": -30.4661,
+      "step": 36700
+    },
+    {
+      "epoch": 2.826705638027844,
+      "grad_norm": 1.3517789840698242,
+      "learning_rate": 1.1786094590031946e-05,
+      "loss": -30.4661,
+      "step": 36750
+    },
+    {
+      "epoch": 2.826705638027844,
+      "eval_loss": -30.470460891723633,
+      "eval_runtime": 16.9586,
+      "eval_samples_per_second": 58.967,
+      "eval_steps_per_second": 14.742,
+      "step": 36750
+    },
+    {
+      "epoch": 2.8305514960387663,
+      "grad_norm": 1.1399978399276733,
+      "learning_rate": 1.1526374568215465e-05,
+      "loss": -30.4658,
+      "step": 36800
+    },
+    {
+      "epoch": 2.8343973540496883,
+      "grad_norm": 0.8231783509254456,
+      "learning_rate": 1.1266654546398983e-05,
+      "loss": -30.4663,
+      "step": 36850
+    },
+    {
+      "epoch": 2.8382432120606107,
+      "grad_norm": 0.8370407819747925,
+      "learning_rate": 1.1006934524582501e-05,
+      "loss": -30.4662,
+      "step": 36900
+    },
+    {
+      "epoch": 2.842089070071533,
+      "grad_norm": 0.8367822170257568,
+      "learning_rate": 1.0747214502766019e-05,
+      "loss": -30.4662,
+      "step": 36950
+    },
+    {
+      "epoch": 2.845934928082455,
+      "grad_norm": 0.8438307642936707,
+      "learning_rate": 1.0487494480949537e-05,
+      "loss": -30.4661,
+      "step": 37000
+    },
+    {
+      "epoch": 2.845934928082455,
+      "eval_loss": -30.470365524291992,
+      "eval_runtime": 16.8139,
+      "eval_samples_per_second": 59.475,
+      "eval_steps_per_second": 14.869,
+      "step": 37000
     }
   ],
   "logging_steps": 50,