Training in progress, step 11500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81cf0e3dd4d992ca19a0a903b87889cb1dcb0561835bd1a05ad25d4805a11c3a
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a9e090bf1b3b09dbe8cb6b79d3a7e692232fb851dc5e22f221471a638858e73
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24383c9348cb96ba012340aa8a76698ba299b93dfbd362d850260ceb6b5bff92
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:30fc997f014f8771605ac175a0becd64846b6e365b7b344cbcd1952ce4ff7b9d
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:714a435b99357bfd46a0b087ff628bd01321e6a7b7b84db498111b7fbf583143
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d50e12c43bc31ea78337ba4c2a352e47dae2a51ea081d7c0d57df4add4243c5
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43f28196579619a7a1a9fd513d6b01be77d05b370f16ae231d5c0e099a688b29
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:b95749af35857001e40598a88328f44c58838ef1911894bdba44fd9cf3d356b1
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ffb6ab86afd8a1b76a16f7a0e015b06dbb79dc500dae39323cc69f06851bdbd
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7532c7a02e2aeb7c936b6d9813b2c402b9be5b25d9e0bb18270e536f6014e58
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:894bd6c57ea4e17b26aada8f86d81df3acee0b45c80103268804ff49bb2ddbbc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:129303cede08862e45aff723e13523f2863b1a8c5dd6144e719bcbf05975af10
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 11000,
-  "best_metric": 1.807216763496399,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11000",
-  "epoch": 0.8460887624028921,
   "eval_steps": 250,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1900,6 +1900,92 @@
       "eval_samples_per_second": 58.076,
       "eval_steps_per_second": 14.519,
       "step": 11000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 11500,
+  "best_metric": 1.792478322982788,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11500",
+  "epoch": 0.8845473425121144,
   "eval_steps": 250,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.076,
       "eval_steps_per_second": 14.519,
       "step": 11000
+    },
+    {
+      "epoch": 0.8499346204138143,
+      "grad_norm": 2.47654128074646,
+      "learning_rate": 0.00014523543619977664,
+      "loss": 1.8003,
+      "step": 11050
+    },
+    {
+      "epoch": 0.8537804784247366,
+      "grad_norm": 1.6507407426834106,
+      "learning_rate": 0.00014497571617796018,
+      "loss": 1.8999,
+      "step": 11100
+    },
+    {
+      "epoch": 0.8576263364356588,
+      "grad_norm": 1.4758163690567017,
+      "learning_rate": 0.0001447159961561437,
+      "loss": 1.837,
+      "step": 11150
+    },
+    {
+      "epoch": 0.8614721944465811,
+      "grad_norm": 2.2486917972564697,
+      "learning_rate": 0.00014445627613432718,
+      "loss": 1.8501,
+      "step": 11200
+    },
+    {
+      "epoch": 0.8653180524575033,
+      "grad_norm": 1.682785987854004,
+      "learning_rate": 0.00014419655611251072,
+      "loss": 1.8486,
+      "step": 11250
+    },
+    {
+      "epoch": 0.8653180524575033,
+      "eval_loss": 1.8015695810317993,
+      "eval_runtime": 16.9649,
+      "eval_samples_per_second": 58.945,
+      "eval_steps_per_second": 14.736,
+      "step": 11250
+    },
+    {
+      "epoch": 0.8691639104684256,
+      "grad_norm": 1.687892198562622,
+      "learning_rate": 0.00014393683609069424,
+      "loss": 1.8196,
+      "step": 11300
+    },
+    {
+      "epoch": 0.8730097684793477,
+      "grad_norm": 1.6149276494979858,
+      "learning_rate": 0.00014367711606887775,
+      "loss": 1.829,
+      "step": 11350
+    },
+    {
+      "epoch": 0.8768556264902699,
+      "grad_norm": 1.2599520683288574,
+      "learning_rate": 0.0001434173960470613,
+      "loss": 1.8398,
+      "step": 11400
+    },
+    {
+      "epoch": 0.8807014845011922,
+      "grad_norm": 2.5826971530914307,
+      "learning_rate": 0.0001431576760252448,
+      "loss": 1.8362,
+      "step": 11450
+    },
+    {
+      "epoch": 0.8845473425121144,
+      "grad_norm": 1.9814509153366089,
+      "learning_rate": 0.00014289795600342831,
+      "loss": 1.7922,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8845473425121144,
+      "eval_loss": 1.792478322982788,
+      "eval_runtime": 16.8513,
+      "eval_samples_per_second": 59.343,
+      "eval_steps_per_second": 14.836,
+      "step": 11500
     }
   ],
   "logging_steps": 50,