Training in progress, step 34000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ba4032c8806316e646178801ef99b592ee64fdf0f498f16c746612f51bc00e7
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:183bead4ca9a0d8a9ad0402f8298de3e2bfdf1c6bc3c98f0a8a4be0ee1e31d4d
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2455ad53c45645477aed9b3759432e9e9c8407e4084a49e013986abc8fc7f7ca
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b47889f113a05e0ff3862fe30181a9dc731902d20018b65b9702f60ad52946b
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd6f8832ec1dc1733a71a36aefc780b32e10bd6c5f99ceb18e8b4625154891f2
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:e318b97ed9819790ac140e0dd6c53dca0b92f84a57cf1dedca58f5c9fdf217c4
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30531950e4a0b77af65f33843a2ce8e4c0089055b9101a61e4068183a61f16f1
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8f7000d6d396338bd8027a37093a36e3ad9a9fa3dd5e939b7cf2fd1b06a270
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a62584d395be4cf3f57783efb5aff341de6c6d4775795a1ae162154552c4daf8
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d185966dc7e40240f30d39f221c00702b5a813416a3b53099b3469fe07e391c8
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:301e3a937444954f3e90b7bce620ef6813e91f5ce01811f0bf70549ea9c3cae1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2206e3ea9caa91bbe357a176c4a03573c2b47177cf241fe9772382f8b2e0ca8f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 30000,
-  "best_metric": 0.9945911169052124,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.576724867317899,
   "eval_steps": 250,
-  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5770,6 +5770,92 @@
       "eval_samples_per_second": 58.033,
       "eval_steps_per_second": 14.508,
       "step": 33500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 34000,
+  "best_metric": 0.987713634967804,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.615183447427121,
   "eval_steps": 250,
+  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.033,
       "eval_steps_per_second": 14.508,
       "step": 33500
+    },
+    {
+      "epoch": 2.580570725328821,
+      "grad_norm": 0.5430648922920227,
+      "learning_rate": 2.8402981585850453e-05,
+      "loss": 0.9658,
+      "step": 33550
+    },
+    {
+      "epoch": 2.5844165833397432,
+      "grad_norm": 0.6678454279899597,
+      "learning_rate": 2.8143261564033973e-05,
+      "loss": 1.0292,
+      "step": 33600
+    },
+    {
+      "epoch": 2.588262441350665,
+      "grad_norm": 0.7208724021911621,
+      "learning_rate": 2.788354154221749e-05,
+      "loss": 0.9505,
+      "step": 33650
+    },
+    {
+      "epoch": 2.5921082993615876,
+      "grad_norm": 1.2248526811599731,
+      "learning_rate": 2.7623821520401012e-05,
+      "loss": 0.9728,
+      "step": 33700
+    },
+    {
+      "epoch": 2.5959541573725096,
+      "grad_norm": 1.0026588439941406,
+      "learning_rate": 2.7364101498584525e-05,
+      "loss": 0.9783,
+      "step": 33750
+    },
+    {
+      "epoch": 2.5959541573725096,
+      "eval_loss": 0.9881900548934937,
+      "eval_runtime": 17.2742,
+      "eval_samples_per_second": 57.89,
+      "eval_steps_per_second": 14.472,
+      "step": 33750
+    },
+    {
+      "epoch": 2.599800015383432,
+      "grad_norm": 0.9579987525939941,
+      "learning_rate": 2.710438147676804e-05,
+      "loss": 0.9882,
+      "step": 33800
+    },
+    {
+      "epoch": 2.6036458733943544,
+      "grad_norm": 1.0152076482772827,
+      "learning_rate": 2.6844661454951564e-05,
+      "loss": 1.041,
+      "step": 33850
+    },
+    {
+      "epoch": 2.6074917314052763,
+      "grad_norm": 1.1370351314544678,
+      "learning_rate": 2.658494143313508e-05,
+      "loss": 0.9518,
+      "step": 33900
+    },
+    {
+      "epoch": 2.6113375894161988,
+      "grad_norm": 0.9851937890052795,
+      "learning_rate": 2.63252214113186e-05,
+      "loss": 0.9125,
+      "step": 33950
+    },
+    {
+      "epoch": 2.615183447427121,
+      "grad_norm": 0.8480270504951477,
+      "learning_rate": 2.6065501389502116e-05,
+      "loss": 0.9736,
+      "step": 34000
+    },
+    {
+      "epoch": 2.615183447427121,
+      "eval_loss": 0.987713634967804,
+      "eval_runtime": 17.2436,
+      "eval_samples_per_second": 57.993,
+      "eval_steps_per_second": 14.498,
+      "step": 34000
     }
   ],
   "logging_steps": 50,