Training in progress, step 37500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2ce4c589c5061397401ce9e2081c5738e155f631151ad6f86c28daa043b74dd
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3c4fec3fcfea21f991151e26f507a7695fb23bd8b856b2b2f700a67bb497070
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a3cca8d695939e69ba1365c859d738676ce55e2503a07f4dbe6f3adfe81753e
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:af333093453e4833a3b8e0d94d92ddd95f295c0d87e9e98a54a6ad3c390330e9
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9647d8a6b2adb5bd2e5d29a74bb5ee1eed0bb05b87efded2dc2af0c0ccd0eda3
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:c332c5ce1f57e169c0226452b69be2dc4fb900c8955ca04e773762307c8e5eb4
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cf4655cdeb8e5aca9347764802939a2944f234b3fc5a2f97f634953fc236a1b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddcf88ff022861d1e6c33a55560d1a3aa75a31ecba95d857fc1b29571146d9d8
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cac9ce42b7ba760733bbf492d4a3ca175ac7dc370e658647de314f63ace238f9
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b74025bac6cdf338bbaffce8798d5ebfeba84e2c0590feb5feb5210c2d2221
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f46121fb7da8c3401951ea72b61b217e911ffbe13557e6200fd29346c644758c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f59e689571d05ebe27330dcd7978075e538dfc70e5b33155dcbd08ae7037e11
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.7226839661598206,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-31000",
-  "epoch": 2.845934928082455,
   "eval_steps": 250,
-  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6372,6 +6372,92 @@
       "eval_samples_per_second": 56.187,
       "eval_steps_per_second": 14.047,
       "step": 37000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.7226839661598206,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-31000",
+  "epoch": 2.8843935081916774,
   "eval_steps": 250,
+  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.187,
       "eval_steps_per_second": 14.047,
       "step": 37000
+    },
+    {
+      "epoch": 2.8497807860933775,
+      "grad_norm": 1.1233916282653809,
+      "learning_rate": 1.0217385658260397e-05,
+      "loss": 0.7128,
+      "step": 37050
+    },
+    {
+      "epoch": 2.8536266441043,
+      "grad_norm": 0.917649507522583,
+      "learning_rate": 9.957665636443913e-06,
+      "loss": 0.7402,
+      "step": 37100
+    },
+    {
+      "epoch": 2.857472502115222,
+      "grad_norm": 0.8935102820396423,
+      "learning_rate": 9.697945614627432e-06,
+      "loss": 0.731,
+      "step": 37150
+    },
+    {
+      "epoch": 2.8613183601261443,
+      "grad_norm": 0.6891331076622009,
+      "learning_rate": 9.43822559281095e-06,
+      "loss": 0.7331,
+      "step": 37200
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "grad_norm": 0.7505995631217957,
+      "learning_rate": 9.178505570994468e-06,
+      "loss": 0.6744,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "eval_loss": 0.7693511247634888,
+      "eval_runtime": 17.8693,
+      "eval_samples_per_second": 55.962,
+      "eval_steps_per_second": 13.99,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8690100761479886,
+      "grad_norm": 1.2373569011688232,
+      "learning_rate": 8.918785549177986e-06,
+      "loss": 0.6981,
+      "step": 37300
+    },
+    {
+      "epoch": 2.8728559341589106,
+      "grad_norm": 0.9159016013145447,
+      "learning_rate": 8.659065527361506e-06,
+      "loss": 0.7601,
+      "step": 37350
+    },
+    {
+      "epoch": 2.876701792169833,
+      "grad_norm": 0.3170250952243805,
+      "learning_rate": 8.399345505545022e-06,
+      "loss": 0.7008,
+      "step": 37400
+    },
+    {
+      "epoch": 2.8805476501807554,
+      "grad_norm": 0.7592608332633972,
+      "learning_rate": 8.139625483728542e-06,
+      "loss": 0.6966,
+      "step": 37450
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "grad_norm": 0.7826717495918274,
+      "learning_rate": 7.879905461912058e-06,
+      "loss": 0.7398,
+      "step": 37500
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "eval_loss": 0.7694031596183777,
+      "eval_runtime": 17.9358,
+      "eval_samples_per_second": 55.754,
+      "eval_steps_per_second": 13.939,
+      "step": 37500
     }
   ],
   "logging_steps": 50,