Training in progress, step 7000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ecef08c15acbbcafdbd18353f8fac26c3a385caa8d1e0800b9015c88eca7688
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:3903c059a7b663d5bfd566efc9974ae82cc96ac9d5b539705078e742f56c337d
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ff134a511b0525e97d92ca6b0df4a29b3c192a8c38ede989f92d5a4599a5387
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4c871c606d134fb7ce2c803972d6df79093d0f6a67161c6b1b4060e6eb55be6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44c02dc0791054ba042a754ce4b193305b8c58f3c6ec32c6d59f64ae1e19274a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f4acfd5fa4964d8f20ab734945eda1f469ecfbbe259a3fd74f731ec4baabed1
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df1b3ae13e2a70e8f07dd9d7c74ac5ab9a7fad8c5d805908d310a8c82d08cad1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:6777a8c32c870836be295ac0aa7f4cc3d40129a0ebc96e1b375fa98ce8275f00
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4505e6ebc4cb5953ed365ab7de48d1737346198587960aabd24a26dc3d267d0c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:61aefcf58c021497ade44ee93d84da1168bb6593c3269faeaeb7e7cace70ca34
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 5000,
-  "best_metric": 4.414160251617432,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-5000",
-  "epoch": 0.4999615414198908,
   "eval_steps": 250,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1126,6 +1126,92 @@
       "eval_samples_per_second": 53.008,
       "eval_steps_per_second": 13.252,
       "step": 6500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 7000,
+  "best_metric": 4.411437034606934,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-7000",
+  "epoch": 0.5384201215291131,
   "eval_steps": 250,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.008,
       "eval_steps_per_second": 13.252,
       "step": 6500
+    },
+    {
+      "epoch": 0.503807399430813,
+      "grad_norm": 4.299264430999756,
+      "learning_rate": 0.00010684386603433697,
+      "loss": 4.6103,
+      "step": 6550
+    },
+    {
+      "epoch": 0.5076532574417353,
+      "grad_norm": 4.186795234680176,
+      "learning_rate": 0.00010659166942391823,
+      "loss": 4.5303,
+      "step": 6600
+    },
+    {
+      "epoch": 0.5114991154526575,
+      "grad_norm": 2.925708293914795,
+      "learning_rate": 0.00010633432594389911,
+      "loss": 4.4265,
+      "step": 6650
+    },
+    {
+      "epoch": 0.5153449734635798,
+      "grad_norm": 6.368393421173096,
+      "learning_rate": 0.00010607698246388,
+      "loss": 4.3358,
+      "step": 6700
+    },
+    {
+      "epoch": 0.519190831474502,
+      "grad_norm": 4.947482585906982,
+      "learning_rate": 0.00010581963898386088,
+      "loss": 4.5812,
+      "step": 6750
+    },
+    {
+      "epoch": 0.519190831474502,
+      "eval_loss": 4.466405868530273,
+      "eval_runtime": 18.8333,
+      "eval_samples_per_second": 53.097,
+      "eval_steps_per_second": 13.274,
+      "step": 6750
+    },
+    {
+      "epoch": 0.5230366894854241,
+      "grad_norm": 2.469914674758911,
+      "learning_rate": 0.00010556229550384175,
+      "loss": 4.3623,
+      "step": 6800
+    },
+    {
+      "epoch": 0.5268825474963464,
+      "grad_norm": 5.027404308319092,
+      "learning_rate": 0.00010530495202382264,
+      "loss": 4.5466,
+      "step": 6850
+    },
+    {
+      "epoch": 0.5307284055072686,
+      "grad_norm": 4.797220706939697,
+      "learning_rate": 0.00010504760854380352,
+      "loss": 4.4486,
+      "step": 6900
+    },
+    {
+      "epoch": 0.5345742635181909,
+      "grad_norm": 5.403319358825684,
+      "learning_rate": 0.00010479026506378442,
+      "loss": 4.4919,
+      "step": 6950
+    },
+    {
+      "epoch": 0.5384201215291131,
+      "grad_norm": 4.601899147033691,
+      "learning_rate": 0.0001045329215837653,
+      "loss": 4.4703,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5384201215291131,
+      "eval_loss": 4.411437034606934,
+      "eval_runtime": 18.8691,
+      "eval_samples_per_second": 52.997,
+      "eval_steps_per_second": 13.249,
+      "step": 7000
     }
   ],
   "logging_steps": 50,