Training in progress, step 5000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93119a0d9cb064139d255492b711db7396f97fb777f6b21f3047db86160f8da1
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0c1e03b37e306af29004a56bbc2e3cfe78ac4558d064ded4954032563a506c0
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:125ad1b5dfbb7c0433847ba8eef28656d1f2c9a2847dd305ac88da601d14eb44
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d76b1ed26fb441fb296b2bc10e92b9546db047308ea5940e5ff2ef749dcfb42
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:271210047536fd837cd0fd091596a0f630f6e94e0fa870a34b128422c282005c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a263bfee7c334e6fc36b6c4750e79a70eeb042f841889c6eb0ea501e4fa6ac73
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c3093554b4b4d0ee00227f47b178cf5d2eae0462d643e6318319b65a22a3843
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bbcc820499d7de99bfade4a29f6e9516d1e9cb1c8de79befcf1f0d7f2a4da15
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eced77b7b0854293e79cdebb593e6728be6e65566d560277706b561437e8ee74
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7200a3e7cdec9309704535acc69d439ad04e127a63c3c13c5ca0a94f0236ea31
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 4500,
-  "best_metric": 4.479401588439941,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-4500",
-  "epoch": 0.3461272209830013,
   "eval_steps": 250,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -782,6 +782,92 @@
       "eval_samples_per_second": 53.143,
       "eval_steps_per_second": 13.286,
       "step": 4500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 5000,
+  "best_metric": 4.414160251617432,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-5000",
+  "epoch": 0.3845858010922237,
   "eval_steps": 250,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.143,
       "eval_steps_per_second": 13.286,
       "step": 4500
+    },
+    {
+      "epoch": 0.34997307899392355,
+      "grad_norm": 4.825377941131592,
+      "learning_rate": 0.00011712731149590087,
+      "loss": 4.5321,
+      "step": 4550
+    },
+    {
+      "epoch": 0.3538189370048458,
+      "grad_norm": 3.5786240100860596,
+      "learning_rate": 0.00011686996801588176,
+      "loss": 4.5819,
+      "step": 4600
+    },
+    {
+      "epoch": 0.35766479501576803,
+      "grad_norm": 4.445742130279541,
+      "learning_rate": 0.00011661262453586264,
+      "loss": 4.5954,
+      "step": 4650
+    },
+    {
+      "epoch": 0.3615106530266903,
+      "grad_norm": 4.670301914215088,
+      "learning_rate": 0.00011635528105584354,
+      "loss": 4.3381,
+      "step": 4700
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "grad_norm": 3.0563037395477295,
+      "learning_rate": 0.0001160979375758244,
+      "loss": 4.4451,
+      "step": 4750
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "eval_loss": 4.503940582275391,
+      "eval_runtime": 19.0274,
+      "eval_samples_per_second": 52.556,
+      "eval_steps_per_second": 13.139,
+      "step": 4750
+    },
+    {
+      "epoch": 0.3692023690485347,
+      "grad_norm": 4.921920299530029,
+      "learning_rate": 0.00011584059409580528,
+      "loss": 4.5505,
+      "step": 4800
+    },
+    {
+      "epoch": 0.37304822705945695,
+      "grad_norm": 4.440188407897949,
+      "learning_rate": 0.00011558325061578617,
+      "loss": 4.5339,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3768940850703792,
+      "grad_norm": 4.123379707336426,
+      "learning_rate": 0.00011532590713576705,
+      "loss": 4.5001,
+      "step": 4900
+    },
+    {
+      "epoch": 0.38073994308130144,
+      "grad_norm": 3.6461265087127686,
+      "learning_rate": 0.00011506856365574795,
+      "loss": 4.4704,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "grad_norm": 4.586422443389893,
+      "learning_rate": 0.00011481122017572883,
+      "loss": 4.5607,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "eval_loss": 4.414160251617432,
+      "eval_runtime": 18.6554,
+      "eval_samples_per_second": 53.604,
+      "eval_steps_per_second": 13.401,
+      "step": 5000
     }
   ],
   "logging_steps": 50,