Training in progress, step 15000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5de88d64234be7632faf6ed628466ea75cb72606709e8a9670ff3263d20b99b2
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9310d7742dd19e663f6402741ea20db935d3b2e0e01a71d5a768ac7db25bc72
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac7a2ed0ceb2c14c05b2e472c85dab7e8d15b84be1a5716c1b4854657649f724
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c1a1611c8e46f685348b5dfe48ae762df7c9c3b98434f8da77fcc5f9f81a751
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:941a4797b295e526292ea21153bdb7a4de0cee47eeeefcced80807826927615e
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f525658a7b4e5ff255750bc03647522ca336d6f40ea836aaa028d9a5bebc0152
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8ea42701e6bd5369fc7af2447cde260122e2711abf45d46209ed918523c1a2c
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c298ef220b2440e2c8688c2918aba70637e9e1c8a2951767772c4969343135c8
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:217ca02994358ecc2a1db89215641d4738177464b90707bbe2cb909f480a3316
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:453f146988a415e18f9bddb29836fc724515457272291d8aed123845d69e5c29
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bd4c9fae5d6170e75be05d4525938eac243e67e0a631b43205d6ab8dd428bda
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73ddc28e63ea8c6b2f70c524e6eba5501abe22b3d62b8aa4437458f65de50c75
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 13750,
   "best_metric": 1.5073590278625488,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
-  "epoch": 1.1152988231674485,
   "eval_steps": 250,
-  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2502,6 +2502,92 @@
       "eval_samples_per_second": 56.602,
       "eval_steps_per_second": 14.151,
       "step": 14500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 13750,
   "best_metric": 1.5073590278625488,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
+  "epoch": 1.153757403276671,
   "eval_steps": 250,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.602,
       "eval_steps_per_second": 14.151,
       "step": 14500
+    },
+    {
+      "epoch": 1.119144681178371,
+      "grad_norm": 1.6422228813171387,
+      "learning_rate": 0.0001270706178739319,
+      "loss": 1.5494,
+      "step": 14550
+    },
+    {
+      "epoch": 1.1229905391892931,
+      "grad_norm": 0.7187716960906982,
+      "learning_rate": 0.00012681089785211542,
+      "loss": 1.4221,
+      "step": 14600
+    },
+    {
+      "epoch": 1.1268363972002153,
+      "grad_norm": 1.2605098485946655,
+      "learning_rate": 0.00012655117783029896,
+      "loss": 1.4299,
+      "step": 14650
+    },
+    {
+      "epoch": 1.1306822552111375,
+      "grad_norm": 2.598015069961548,
+      "learning_rate": 0.00012629145780848245,
+      "loss": 1.5757,
+      "step": 14700
+    },
+    {
+      "epoch": 1.13452811322206,
+      "grad_norm": 1.4004614353179932,
+      "learning_rate": 0.00012603173778666596,
+      "loss": 1.482,
+      "step": 14750
+    },
+    {
+      "epoch": 1.13452811322206,
+      "eval_loss": 1.5089725255966187,
+      "eval_runtime": 17.9036,
+      "eval_samples_per_second": 55.855,
+      "eval_steps_per_second": 13.964,
+      "step": 14750
+    },
+    {
+      "epoch": 1.1383739712329821,
+      "grad_norm": 1.3800735473632812,
+      "learning_rate": 0.0001257720177648495,
+      "loss": 1.5285,
+      "step": 14800
+    },
+    {
+      "epoch": 1.1422198292439043,
+      "grad_norm": 1.3741459846496582,
+      "learning_rate": 0.00012551229774303301,
+      "loss": 1.5242,
+      "step": 14850
+    },
+    {
+      "epoch": 1.1460656872548265,
+      "grad_norm": 2.232680559158325,
+      "learning_rate": 0.00012525257772121653,
+      "loss": 1.4483,
+      "step": 14900
+    },
+    {
+      "epoch": 1.149911545265749,
+      "grad_norm": 1.4408409595489502,
+      "learning_rate": 0.00012499285769940007,
+      "loss": 1.5414,
+      "step": 14950
+    },
+    {
+      "epoch": 1.153757403276671,
+      "grad_norm": 1.5221819877624512,
+      "learning_rate": 0.00012473313767758355,
+      "loss": 1.5246,
+      "step": 15000
+    },
+    {
+      "epoch": 1.153757403276671,
+      "eval_loss": 1.516871452331543,
+      "eval_runtime": 17.9308,
+      "eval_samples_per_second": 55.77,
+      "eval_steps_per_second": 13.943,
+      "step": 15000
     }
   ],
   "logging_steps": 50,