Training in progress, step 16500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43a22733b29e992c0bd766025c6983872cb4acdb51a99cfbd6ae33f04e90e488
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d2bb37f0bb2536ca33711abe7b3143ef3974ef2ca0c218977672374d7ca8e27
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75a8f8b3d0832f2fc4424ae0d890bc11c09d5e5d890a55794f03850f8038b621
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:3916cf9823a85ba87d1391c608e5091a2091feb324e91b9bb2a76ddf86c0982d
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64a4f0cd681e844471044bb218c832bcc1142d56051b8bf40fe1abbce916dd45
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:518b6ef8fc143d463491edf1260763c10b5e11e873cd36abf76a046091e577c9
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2268c750118e17cd7866635da6e44831e071d618455f938ab68da6b4daa1e485
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:d28d5f3a49ada942ec355f276b33d6e4bff345075b872b6e2b651f5666a06f0a
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53cd8dea1c9f30f479c9d6030e3863aab75d4d5334d9c298aeeb7854ecce09dd
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:b340848445b4f5b2d5567ddb4c818db5bf89137348148d19bd0b15ff0d69c43d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a6c2c1a93051773698e8cc5d95d9193f3be9f07990ac4d13439261ba391175
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d72187e2b5b8f8cffa32a0fbea90f82e23c165518eb95af21f7e18bd9e8c4a42
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 15750,
-  "best_metric": 1.4955236911773682,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
-  "epoch": 1.2306745634951157,
   "eval_steps": 250,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2760,6 +2760,92 @@
       "eval_samples_per_second": 56.159,
       "eval_steps_per_second": 14.04,
       "step": 16000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 16250,
+  "best_metric": 1.4893407821655273,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
+  "epoch": 1.2691331436043383,
   "eval_steps": 250,
+  "global_step": 16500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.159,
       "eval_steps_per_second": 14.04,
       "step": 16000
+    },
+    {
+      "epoch": 1.234520421506038,
+      "grad_norm": 6.292486667633057,
+      "learning_rate": 0.00011927901721943746,
+      "loss": 1.3934,
+      "step": 16050
+    },
+    {
+      "epoch": 1.2383662795169603,
+      "grad_norm": 1.6574532985687256,
+      "learning_rate": 0.00011901929719762097,
+      "loss": 1.4821,
+      "step": 16100
+    },
+    {
+      "epoch": 1.2422121375278825,
+      "grad_norm": 1.8651037216186523,
+      "learning_rate": 0.00011875957717580448,
+      "loss": 1.49,
+      "step": 16150
+    },
+    {
+      "epoch": 1.2460579955388047,
+      "grad_norm": 1.3768175840377808,
+      "learning_rate": 0.00011849985715398801,
+      "loss": 1.4579,
+      "step": 16200
+    },
+    {
+      "epoch": 1.2499038535497269,
+      "grad_norm": 1.1569020748138428,
+      "learning_rate": 0.00011824013713217152,
+      "loss": 1.4029,
+      "step": 16250
+    },
+    {
+      "epoch": 1.2499038535497269,
+      "eval_loss": 1.4893407821655273,
+      "eval_runtime": 17.9552,
+      "eval_samples_per_second": 55.694,
+      "eval_steps_per_second": 13.924,
+      "step": 16250
+    },
+    {
+      "epoch": 1.253749711560649,
+      "grad_norm": 1.8632296323776245,
+      "learning_rate": 0.00011798041711035504,
+      "loss": 1.4592,
+      "step": 16300
+    },
+    {
+      "epoch": 1.2575955695715715,
+      "grad_norm": 1.8080470561981201,
+      "learning_rate": 0.00011772069708853856,
+      "loss": 1.4678,
+      "step": 16350
+    },
+    {
+      "epoch": 1.2614414275824937,
+      "grad_norm": 1.4193981885910034,
+      "learning_rate": 0.00011746097706672208,
+      "loss": 1.5031,
+      "step": 16400
+    },
+    {
+      "epoch": 1.2652872855934159,
+      "grad_norm": 1.5050238370895386,
+      "learning_rate": 0.00011720125704490559,
+      "loss": 1.4107,
+      "step": 16450
+    },
+    {
+      "epoch": 1.2691331436043383,
+      "grad_norm": 1.12454092502594,
+      "learning_rate": 0.00011694153702308911,
+      "loss": 1.4572,
+      "step": 16500
+    },
+    {
+      "epoch": 1.2691331436043383,
+      "eval_loss": 1.4972718954086304,
+      "eval_runtime": 17.8677,
+      "eval_samples_per_second": 55.967,
+      "eval_steps_per_second": 13.992,
+      "step": 16500
     }
   ],
   "logging_steps": 50,