Training in progress, step 13500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2d7fcaf2efe42ffb5f3c9e028de2d4020155b47fd00969c045a7b96f9a500e0
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:474b67c549b3ac63215af64bfd5c3e231be24980b37242c9f744a9bc612f0008
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:828b8db8ad6923c1cf715c1424f34fe8d45d1942c07709d2ed3e3b91c7b41825
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0480e511efe20f590b2d821022731b40382edf3655bca705228ed05b63128830
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81731a2aece3051885d7289cef2d696a33b091ba71fd2ad97dba80506614db51
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1a8b91d626d80e48ce9e4448a6fbe135ae118d67810182f7182aa5d1211e998
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbf8948534182fde8a4da31776a53cc78337e1e18ed4b526e2ee8ca99eff5731
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:81ec269cbd23a3955804ddaef963a9e0d68f2087a109e239da5baed50032493e
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1a2f8fe642f01391ef2e54fcf96a41d1f8399b7293ea1f181058d0539b5b33d
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b7a18a05122b0a199bfed591a89a0565feeaa299af76bd8309bbdc13d5d6b59
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69b23dccdca16565cb13b99c2e00b6827579e6c2cc8759c8f2106a0579d096c8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4610d4a5272883eace09557947e58aa9c641822afa7ad93c2a7f7af7024f8b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 13000,
   "best_metric": 1.5119102001190186,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
-  "epoch": 0.9999230828397816,
   "eval_steps": 250,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2244,6 +2244,92 @@
       "eval_samples_per_second": 56.404,
       "eval_steps_per_second": 14.101,
       "step": 13000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 13000,
   "best_metric": 1.5119102001190186,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
+  "epoch": 1.038381662949004,
   "eval_steps": 250,
+  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.404,
       "eval_steps_per_second": 14.101,
       "step": 13000
+    },
+    {
+      "epoch": 1.0037689408507038,
+      "grad_norm": 1.4789248704910278,
+      "learning_rate": 0.00013486221852842636,
+      "loss": 1.4551,
+      "step": 13050
+    },
+    {
+      "epoch": 1.007614798861626,
+      "grad_norm": 1.3270663022994995,
+      "learning_rate": 0.00013460249850660988,
+      "loss": 1.4776,
+      "step": 13100
+    },
+    {
+      "epoch": 1.0114606568725482,
+      "grad_norm": 1.3546854257583618,
+      "learning_rate": 0.0001343427784847934,
+      "loss": 1.5807,
+      "step": 13150
+    },
+    {
+      "epoch": 1.0153065148834706,
+      "grad_norm": 1.303915023803711,
+      "learning_rate": 0.0001340830584629769,
+      "loss": 1.4309,
+      "step": 13200
+    },
+    {
+      "epoch": 1.0191523728943928,
+      "grad_norm": 0.8854748606681824,
+      "learning_rate": 0.00013382333844116044,
+      "loss": 1.4395,
+      "step": 13250
+    },
+    {
+      "epoch": 1.0191523728943928,
+      "eval_loss": 1.5238608121871948,
+      "eval_runtime": 17.7588,
+      "eval_samples_per_second": 56.31,
+      "eval_steps_per_second": 14.077,
+      "step": 13250
+    },
+    {
+      "epoch": 1.022998230905315,
+      "grad_norm": 1.5649653673171997,
+      "learning_rate": 0.00013356361841934395,
+      "loss": 1.5022,
+      "step": 13300
+    },
+    {
+      "epoch": 1.0268440889162371,
+      "grad_norm": 1.6031616926193237,
+      "learning_rate": 0.0001333038983975275,
+      "loss": 1.4315,
+      "step": 13350
+    },
+    {
+      "epoch": 1.0306899469271595,
+      "grad_norm": 1.3788844347000122,
+      "learning_rate": 0.00013304417837571098,
+      "loss": 1.578,
+      "step": 13400
+    },
+    {
+      "epoch": 1.0345358049380817,
+      "grad_norm": 1.4347171783447266,
+      "learning_rate": 0.0001327844583538945,
+      "loss": 1.3993,
+      "step": 13450
+    },
+    {
+      "epoch": 1.038381662949004,
+      "grad_norm": 1.9777193069458008,
+      "learning_rate": 0.00013252473833207803,
+      "loss": 1.4331,
+      "step": 13500
+    },
+    {
+      "epoch": 1.038381662949004,
+      "eval_loss": 1.5231057405471802,
+      "eval_runtime": 17.8114,
+      "eval_samples_per_second": 56.144,
+      "eval_steps_per_second": 14.036,
+      "step": 13500
     }
   ],
   "logging_steps": 50,