Training in progress, step 2500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37e7ac0622b34136a1adc5dda670dd8f06fe9699327bbef64e2b847e41d62d45
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e10a7c8bb0d516328a4f08fb821bc0e53102e1b0a0d8ea1d6c8cc3bce9dca90
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d5aaec88b2f521c4d19280ee5a843dca115995f362a0926fa7ff5637694cc6d
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdb38bb607b4da045b51a34cfbf7428a4bf481a4b7dcfcd083d72647f444c879
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc0f99b2f4c37e6bd3da61564f89d37dedf31c888089686d20000b137615abc8
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d026d37c2efc698996a40494d349ec54a4ff40c81599ec63f15410e52a0e87f
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4da9c3920b2d28ca98d344913f643342e405b080bfc26edfe880e644c5be7370
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:100aab8649e7180e1ab3ef8feaab197f99e31e9f728f5189c5431d80dbc2eacd
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43c2f44953ece167e5bd34ec80ca4bdfcda9e945ce63675d98939409afdb1cb3
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:996af29fdb07e722f1f70dd9ba54354e5a4baf4f673aef8bef5139d74d107a73
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:951a13f6b06bce52a2ba9f7d2d8f60254ac5cc4c021e67355429cc5c41426dfb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d57c57de49427b666f955c0cc0173da1ca9651de809c40ac268e017db320996
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 1.60262131690979,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-2000",
-  "epoch": 0.15383432043688947,
   "eval_steps": 250,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -352,6 +352,92 @@
       "eval_samples_per_second": 59.349,
       "eval_steps_per_second": 14.837,
       "step": 2000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 2500,
+  "best_metric": 1.5644338130950928,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-2500",
+  "epoch": 0.19229290054611184,
   "eval_steps": 250,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.349,
       "eval_steps_per_second": 14.837,
       "step": 2000
+    },
+    {
+      "epoch": 0.1576801784478117,
+      "grad_norm": 0.8268172740936279,
+      "learning_rate": 0.0001919746513258707,
+      "loss": 1.6329,
+      "step": 2050
+    },
+    {
+      "epoch": 0.16152603645873395,
+      "grad_norm": 1.3260400295257568,
+      "learning_rate": 0.00019171493130405425,
+      "loss": 1.6029,
+      "step": 2100
+    },
+    {
+      "epoch": 0.16537189446965617,
+      "grad_norm": 1.9381955862045288,
+      "learning_rate": 0.00019145521128223776,
+      "loss": 1.5311,
+      "step": 2150
+    },
+    {
+      "epoch": 0.1692177524805784,
+      "grad_norm": 1.0509984493255615,
+      "learning_rate": 0.00019119549126042127,
+      "loss": 1.5224,
+      "step": 2200
+    },
+    {
+      "epoch": 0.17306361049150065,
+      "grad_norm": 0.8311214447021484,
+      "learning_rate": 0.0001909357712386048,
+      "loss": 1.5033,
+      "step": 2250
+    },
+    {
+      "epoch": 0.17306361049150065,
+      "eval_loss": 1.5902116298675537,
+      "eval_runtime": 16.992,
+      "eval_samples_per_second": 58.851,
+      "eval_steps_per_second": 14.713,
+      "step": 2250
+    },
+    {
+      "epoch": 0.1769094685024229,
+      "grad_norm": 1.4311176538467407,
+      "learning_rate": 0.0001906760512167883,
+      "loss": 1.6188,
+      "step": 2300
+    },
+    {
+      "epoch": 0.18075532651334514,
+      "grad_norm": 1.2279688119888306,
+      "learning_rate": 0.0001904163311949718,
+      "loss": 1.5018,
+      "step": 2350
+    },
+    {
+      "epoch": 0.18460118452426735,
+      "grad_norm": 1.7099772691726685,
+      "learning_rate": 0.00019015661117315535,
+      "loss": 1.5609,
+      "step": 2400
+    },
+    {
+      "epoch": 0.1884470425351896,
+      "grad_norm": 1.3446159362792969,
+      "learning_rate": 0.00018989689115133887,
+      "loss": 1.6171,
+      "step": 2450
+    },
+    {
+      "epoch": 0.19229290054611184,
+      "grad_norm": 1.4243688583374023,
+      "learning_rate": 0.00018963717112952238,
+      "loss": 1.5512,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19229290054611184,
+      "eval_loss": 1.5644338130950928,
+      "eval_runtime": 16.8277,
+      "eval_samples_per_second": 59.426,
+      "eval_steps_per_second": 14.856,
+      "step": 2500
     }
   ],
   "logging_steps": 50,