Training in progress, step 6000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97249c47c6b32ef65b151737e7f96c260e5a23f9fbe742a453b5f4d81d690726
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:436b6e968fb5604005fd81ad87662f85c94593110929c806420ee474d7f3d4b3
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4be1866ad2b89ce10f9d86783f55773d8feaaccbe73932e4a09243f667cbcc5
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb28ed3ffec69fef5de4a3f116c672c7bdb8dcd8d1d63a0a351fcf8d1d424c2d
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62aa10d649cc73207a70cc479a1f297dd3d4ee8f4046bf419864ec2fcc09094e
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee9b798a96c2e7a3a2a1ab191f1fff2b3926ef156d5382c2afa2a8f948173117
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:452f9d1449e365d91136837164af087a289325b1bf94b381d6eeb9d18ffa0513
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c22be93200b6ea29a5a43fdc896fd16b0e2c374bfcbb275fb907bb85c40cd3
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91bbcbbac469a768b1f8fb700c511addacfb7e81974f1cc808de5a03588fc9f9
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b6618d641c818c3995a5b603cd6e606d1c4f3e865f138e046dbb16cc25967da
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66663104f3ba703edc4ec090a0702d7a9699150cb3c08b7ab9b0c3768767d04b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3428e4135cd17a5056c02e50b97a6e67b768ec92eede0a8846febe18ebcfa82
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
-  "epoch": 0.42304438120144605,
   "eval_steps": 250,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -954,6 +954,92 @@
       "eval_samples_per_second": 53.707,
       "eval_steps_per_second": 13.427,
       "step": 5500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
+  "epoch": 0.4615029613106684,
   "eval_steps": 250,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.707,
       "eval_steps_per_second": 13.427,
       "step": 5500
+    },
+    {
+      "epoch": 0.4268902392123683,
+      "grad_norm": 4.2113752365112305,
+      "learning_rate": 0.00017380983300002597,
+      "loss": 4.5454,
+      "step": 5550
+    },
+    {
+      "epoch": 0.43073609722329054,
+      "grad_norm": 4.782048225402832,
+      "learning_rate": 0.0001735501129782095,
+      "loss": 4.4705,
+      "step": 5600
+    },
+    {
+      "epoch": 0.4345819552342128,
+      "grad_norm": 2.6753036975860596,
+      "learning_rate": 0.00017329039295639303,
+      "loss": 4.4592,
+      "step": 5650
+    },
+    {
+      "epoch": 0.43842781324513497,
+      "grad_norm": 5.012415885925293,
+      "learning_rate": 0.00017303067293457654,
+      "loss": 4.623,
+      "step": 5700
+    },
+    {
+      "epoch": 0.4422736712560572,
+      "grad_norm": 3.0666699409484863,
+      "learning_rate": 0.00017277095291276005,
+      "loss": 4.4325,
+      "step": 5750
+    },
+    {
+      "epoch": 0.4422736712560572,
+      "eval_loss": 4.489352703094482,
+      "eval_runtime": 18.4948,
+      "eval_samples_per_second": 54.069,
+      "eval_steps_per_second": 13.517,
+      "step": 5750
+    },
+    {
+      "epoch": 0.44611952926697945,
+      "grad_norm": 6.8570876121521,
+      "learning_rate": 0.00017251123289094357,
+      "loss": 4.5179,
+      "step": 5800
+    },
+    {
+      "epoch": 0.4499653872779017,
+      "grad_norm": 7.190755844116211,
+      "learning_rate": 0.00017225151286912708,
+      "loss": 4.5877,
+      "step": 5850
+    },
+    {
+      "epoch": 0.45381124528882394,
+      "grad_norm": 4.404886722564697,
+      "learning_rate": 0.00017199179284731062,
+      "loss": 4.4072,
+      "step": 5900
+    },
+    {
+      "epoch": 0.4576571032997462,
+      "grad_norm": 3.0543084144592285,
+      "learning_rate": 0.00017173207282549413,
+      "loss": 4.4656,
+      "step": 5950
+    },
+    {
+      "epoch": 0.4615029613106684,
+      "grad_norm": 6.7454514503479,
+      "learning_rate": 0.00017147235280367764,
+      "loss": 4.5688,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4615029613106684,
+      "eval_loss": 4.480144023895264,
+      "eval_runtime": 18.5584,
+      "eval_samples_per_second": 53.884,
+      "eval_steps_per_second": 13.471,
+      "step": 6000
     }
   ],
   "logging_steps": 50,