Training in progress, step 14500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e9082dd993ab0c4dc4999c1db1ee4781bb37e4ef2b3309b62916fe0af14e9e
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:5de88d64234be7632faf6ed628466ea75cb72606709e8a9670ff3263d20b99b2
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b05a5a771bbfa42b5ce6876a4e742b487145ad1b23810ea34ba9924b54cc834
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac7a2ed0ceb2c14c05b2e472c85dab7e8d15b84be1a5716c1b4854657649f724
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c567148d53eafd6022545201901938ff6ac986ce6ba91de6582e61fe1a67fdf3
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:941a4797b295e526292ea21153bdb7a4de0cee47eeeefcced80807826927615e
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5de168b313b50f7920582863eb6c48735221da70f052aa0c3517b7e8965981bd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8ea42701e6bd5369fc7af2447cde260122e2711abf45d46209ed918523c1a2c
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6148534a27a25fb6f834b4dad22172177ef760e29ec4f90db326b0fc73929937
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:217ca02994358ecc2a1db89215641d4738177464b90707bbe2cb909f480a3316
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d4b25db822a02d6858ac9bb141ed0e837701c9de7d32c7960967feccd1d18fc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bd4c9fae5d6170e75be05d4525938eac243e67e0a631b43205d6ab8dd428bda
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 13750,
   "best_metric": 1.5073590278625488,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
-  "epoch": 1.0768402430582262,
   "eval_steps": 250,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2416,6 +2416,92 @@
       "eval_samples_per_second": 56.077,
       "eval_steps_per_second": 14.019,
       "step": 14000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 13750,
   "best_metric": 1.5073590278625488,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
+  "epoch": 1.1152988231674485,
   "eval_steps": 250,
+  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.077,
       "eval_steps_per_second": 14.019,
       "step": 14000
+    },
+    {
+      "epoch": 1.0806861010691486,
+      "grad_norm": 2.1172475814819336,
+      "learning_rate": 0.00012966781809209673,
+      "loss": 1.4055,
+      "step": 14050
+    },
+    {
+      "epoch": 1.0845319590800708,
+      "grad_norm": 1.196999430656433,
+      "learning_rate": 0.00012940809807028024,
+      "loss": 1.464,
+      "step": 14100
+    },
+    {
+      "epoch": 1.088377817090993,
+      "grad_norm": 1.3582040071487427,
+      "learning_rate": 0.00012914837804846375,
+      "loss": 1.4502,
+      "step": 14150
+    },
+    {
+      "epoch": 1.0922236751019152,
+      "grad_norm": 1.6588162183761597,
+      "learning_rate": 0.0001288886580266473,
+      "loss": 1.5174,
+      "step": 14200
+    },
+    {
+      "epoch": 1.0960695331128374,
+      "grad_norm": 1.7531650066375732,
+      "learning_rate": 0.0001286289380048308,
+      "loss": 1.505,
+      "step": 14250
+    },
+    {
+      "epoch": 1.0960695331128374,
+      "eval_loss": 1.5160688161849976,
+      "eval_runtime": 17.764,
+      "eval_samples_per_second": 56.294,
+      "eval_steps_per_second": 14.073,
+      "step": 14250
+    },
+    {
+      "epoch": 1.0999153911237598,
+      "grad_norm": 1.868784785270691,
+      "learning_rate": 0.00012836921798301432,
+      "loss": 1.5544,
+      "step": 14300
+    },
+    {
+      "epoch": 1.103761249134682,
+      "grad_norm": 1.9493080377578735,
+      "learning_rate": 0.00012810949796119783,
+      "loss": 1.533,
+      "step": 14350
+    },
+    {
+      "epoch": 1.1076071071456042,
+      "grad_norm": 0.7309526801109314,
+      "learning_rate": 0.00012784977793938135,
+      "loss": 1.4672,
+      "step": 14400
+    },
+    {
+      "epoch": 1.1114529651565264,
+      "grad_norm": 1.3281447887420654,
+      "learning_rate": 0.00012759005791756486,
+      "loss": 1.3874,
+      "step": 14450
+    },
+    {
+      "epoch": 1.1152988231674485,
+      "grad_norm": 1.0158611536026,
+      "learning_rate": 0.0001273303378957484,
+      "loss": 1.4966,
+      "step": 14500
+    },
+    {
+      "epoch": 1.1152988231674485,
+      "eval_loss": 1.5160739421844482,
+      "eval_runtime": 17.6672,
+      "eval_samples_per_second": 56.602,
+      "eval_steps_per_second": 14.151,
+      "step": 14500
     }
   ],
   "logging_steps": 50,