Training in progress, step 15000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:048b14e8250392932daba4d22d09a460365951dbb6b68b5a41a1a0e5ce624541
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e8b88b22335eff4aa95a5db7b6615364abd358d14317af2dec16bcdb2efc61
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b29852e5d0ff827b5e17125c299364e88ca1c70914de6e2a1ee93e58f54b613
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8a93a0264eb6605e0d626be93ba5f8dee38234bcac32f7e6d5d1cccc2a1057f
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8ea42701e6bd5369fc7af2447cde260122e2711abf45d46209ed918523c1a2c
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c298ef220b2440e2c8688c2918aba70637e9e1c8a2951767772c4969343135c8
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbaf929d345a2a40a03fb2b8f0c27dc126d0b7d5e2424d21837b1af94ede355e
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:08eda93be407e2e8125df91c801018bcedfb4cde17a8cf02b9f76837f9ade1c1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3969f570a31885b978deed67646d88ac34c614ef8cb8214e9d16328676e8af9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a00183886b48331e49cfb9b953bfa8a92696629d3ac41c1b27b8636569368855
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13750,
-  "best_metric": 1.5006794929504395,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-13000",
-  "epoch": 1.1152988231674485,
   "eval_steps": 250,
-  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2502,6 +2502,92 @@
       "eval_samples_per_second": 55.51,
       "eval_steps_per_second": 13.877,
       "step": 14500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 14750,
+  "best_metric": 1.4990500211715698,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-13000",
+  "epoch": 1.153757403276671,
   "eval_steps": 250,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.51,
       "eval_steps_per_second": 13.877,
       "step": 14500
+    },
+    {
+      "epoch": 1.119144681178371,
+      "grad_norm": 1.9716360569000244,
+      "learning_rate": 6.568434984007941e-05,
+      "loss": 1.5349,
+      "step": 14550
+    },
+    {
+      "epoch": 1.1229905391892931,
+      "grad_norm": 0.710033655166626,
+      "learning_rate": 6.542700636006029e-05,
+      "loss": 1.4107,
+      "step": 14600
+    },
+    {
+      "epoch": 1.1268363972002153,
+      "grad_norm": 1.4398375749588013,
+      "learning_rate": 6.516966288004117e-05,
+      "loss": 1.4185,
+      "step": 14650
+    },
+    {
+      "epoch": 1.1306822552111375,
+      "grad_norm": 2.5566532611846924,
+      "learning_rate": 6.491231940002206e-05,
+      "loss": 1.5758,
+      "step": 14700
+    },
+    {
+      "epoch": 1.13452811322206,
+      "grad_norm": 1.2500799894332886,
+      "learning_rate": 6.465497592000294e-05,
+      "loss": 1.4751,
+      "step": 14750
+    },
+    {
+      "epoch": 1.13452811322206,
+      "eval_loss": 1.4990500211715698,
+      "eval_runtime": 17.9979,
+      "eval_samples_per_second": 55.562,
+      "eval_steps_per_second": 13.891,
+      "step": 14750
+    },
+    {
+      "epoch": 1.1383739712329821,
+      "grad_norm": 1.5937495231628418,
+      "learning_rate": 6.439763243998382e-05,
+      "loss": 1.5215,
+      "step": 14800
+    },
+    {
+      "epoch": 1.1422198292439043,
+      "grad_norm": 1.362358570098877,
+      "learning_rate": 6.41402889599647e-05,
+      "loss": 1.5125,
+      "step": 14850
+    },
+    {
+      "epoch": 1.1460656872548265,
+      "grad_norm": 2.1192502975463867,
+      "learning_rate": 6.388294547994558e-05,
+      "loss": 1.4485,
+      "step": 14900
+    },
+    {
+      "epoch": 1.149911545265749,
+      "grad_norm": 1.4089174270629883,
+      "learning_rate": 6.362560199992647e-05,
+      "loss": 1.5331,
+      "step": 14950
+    },
+    {
+      "epoch": 1.153757403276671,
+      "grad_norm": 1.3750373125076294,
+      "learning_rate": 6.336825851990735e-05,
+      "loss": 1.5177,
+      "step": 15000
+    },
+    {
+      "epoch": 1.153757403276671,
+      "eval_loss": 1.5118192434310913,
+      "eval_runtime": 17.9213,
+      "eval_samples_per_second": 55.799,
+      "eval_steps_per_second": 13.95,
+      "step": 15000
     }
   ],
   "logging_steps": 50,