Training in progress, step 6500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:436b6e968fb5604005fd81ad87662f85c94593110929c806420ee474d7f3d4b3
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:df74840f90de2e67e9907cab52791a6dd441f2b7df4dee24f3d27614fb7c4e81
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb28ed3ffec69fef5de4a3f116c672c7bdb8dcd8d1d63a0a351fcf8d1d424c2d
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:35f6e0128f9fd6473636f2b7fa321fba2a34670190a7fcccacc9997f0e6e3efd
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee9b798a96c2e7a3a2a1ab191f1fff2b3926ef156d5382c2afa2a8f948173117
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:e91da0cfbee4e888038757b7189ea413722951a4530435531acf1f53d94aedfd
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c22be93200b6ea29a5a43fdc896fd16b0e2c374bfcbb275fb907bb85c40cd3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:44c02dc0791054ba042a754ce4b193305b8c58f3c6ec32c6d59f64ae1e19274a
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b6618d641c818c3995a5b603cd6e606d1c4f3e865f138e046dbb16cc25967da
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:96851dceb7a310a70f7ecfde20fb5205a7253860759d2b8ce0924be746e3091f
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3428e4135cd17a5056c02e50b97a6e67b768ec92eede0a8846febe18ebcfa82
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:18b7addcef54bd827fd6d26a7fd7e8fd6d6f1182cd34f05f02a7c070592639be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
-  "epoch": 0.4615029613106684,
   "eval_steps": 250,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1040,6 +1040,92 @@
       "eval_samples_per_second": 53.884,
       "eval_steps_per_second": 13.471,
       "step": 6000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
+  "epoch": 0.4999615414198908,
   "eval_steps": 250,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.884,
       "eval_steps_per_second": 13.471,
       "step": 6000
+    },
+    {
+      "epoch": 0.46534881932159067,
+      "grad_norm": 5.5196661949157715,
+      "learning_rate": 0.00017121263278186118,
+      "loss": 4.5703,
+      "step": 6050
+    },
+    {
+      "epoch": 0.4691946773325129,
+      "grad_norm": 4.253966331481934,
+      "learning_rate": 0.00017095291276004467,
+      "loss": 4.6012,
+      "step": 6100
+    },
+    {
+      "epoch": 0.4730405353434351,
+      "grad_norm": 2.459376096725464,
+      "learning_rate": 0.00017069319273822818,
+      "loss": 4.5002,
+      "step": 6150
+    },
+    {
+      "epoch": 0.47688639335435734,
+      "grad_norm": 4.933450698852539,
+      "learning_rate": 0.00017043347271641172,
+      "loss": 4.5703,
+      "step": 6200
+    },
+    {
+      "epoch": 0.4807322513652796,
+      "grad_norm": 4.511186599731445,
+      "learning_rate": 0.00017017375269459524,
+      "loss": 4.4665,
+      "step": 6250
+    },
+    {
+      "epoch": 0.4807322513652796,
+      "eval_loss": 4.485811233520508,
+      "eval_runtime": 18.522,
+      "eval_samples_per_second": 53.99,
+      "eval_steps_per_second": 13.497,
+      "step": 6250
+    },
+    {
+      "epoch": 0.4845781093762018,
+      "grad_norm": 5.634074687957764,
+      "learning_rate": 0.00016991403267277875,
+      "loss": 4.4616,
+      "step": 6300
+    },
+    {
+      "epoch": 0.48842396738712407,
+      "grad_norm": 3.319650650024414,
+      "learning_rate": 0.0001696543126509623,
+      "loss": 4.4836,
+      "step": 6350
+    },
+    {
+      "epoch": 0.4922698253980463,
+      "grad_norm": 3.306976079940796,
+      "learning_rate": 0.00016939459262914577,
+      "loss": 4.5256,
+      "step": 6400
+    },
+    {
+      "epoch": 0.49611568340896856,
+      "grad_norm": 4.1797308921813965,
+      "learning_rate": 0.0001691348726073293,
+      "loss": 4.3822,
+      "step": 6450
+    },
+    {
+      "epoch": 0.4999615414198908,
+      "grad_norm": 3.2349929809570312,
+      "learning_rate": 0.00016887515258551283,
+      "loss": 4.4384,
+      "step": 6500
+    },
+    {
+      "epoch": 0.4999615414198908,
+      "eval_loss": 4.485826015472412,
+      "eval_runtime": 18.614,
+      "eval_samples_per_second": 53.723,
+      "eval_steps_per_second": 13.431,
+      "step": 6500
     }
   ],
   "logging_steps": 50,