Training in progress, step 9000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:267a0aeb8560d88ad88517cd9fd8662ce7d595564aa3e0f53a4ad59438882fb9
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:242d478bdcce64189f3b58031019151e1a18c1af95ac728b5a747bf09e32e7a9
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727b6b299bbefe56d0c7a86c1d32ed70935812db806c55a2d94fdc69eac969c5
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aac51b2ab82ac87e0ebdf687ae863be82703b3f31a5c8357ea90e2e967391af
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b3d8571245b57c1124757a0245973277c23134608ddef1e6cb62706c349989a
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:743ddc3d3453dab54079df809921a1396d6ae9822548c4cca99b22b4380fa013
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a993eb83d217882b8d4270d606bf3996e74fd8745c32e817e4ed4a0c36ae01a8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b68f148982346537acf196edf0aa44542990dee8efc3893aa00dae2ca2e993b5
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:273b848f717f8541d5af997621dc6b78ddd5d9517d19f49a443ead9755008eb4
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fec606e444ea63edc032c8bc6a79a748b3d50629f93eb3c42816c2d5bd5ac94
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69b1fdee44d912af93d7f5915eae6dc9e82d40f7e3d50091f8df864d7a3e6f30
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a408e7faa4c20c8bb6b17b32448bbaa3e8be76b1ace53db10640cd020e42083
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 8500,
   "best_metric": 4.409055709838867,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-8500",
-  "epoch": 0.6537958618567803,
   "eval_steps": 250,
-  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1470,6 +1470,92 @@
       "eval_samples_per_second": 53.78,
       "eval_steps_per_second": 13.445,
       "step": 8500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 8500,
   "best_metric": 4.409055709838867,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-8500",
+  "epoch": 0.6922544419660026,
   "eval_steps": 250,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.78,
       "eval_steps_per_second": 13.445,
       "step": 8500
+    },
+    {
+      "epoch": 0.6576417198677025,
+      "grad_norm": 2.7313661575317383,
+      "learning_rate": 0.00015823702049190975,
+      "loss": 4.4721,
+      "step": 8550
+    },
+    {
+      "epoch": 0.6614875778786247,
+      "grad_norm": 4.160475730895996,
+      "learning_rate": 0.00015797730047009326,
+      "loss": 4.501,
+      "step": 8600
+    },
+    {
+      "epoch": 0.665333435889547,
+      "grad_norm": 11.54045581817627,
+      "learning_rate": 0.00015771758044827675,
+      "loss": 4.4433,
+      "step": 8650
+    },
+    {
+      "epoch": 0.6691792939004692,
+      "grad_norm": 4.087617874145508,
+      "learning_rate": 0.00015745786042646029,
+      "loss": 4.4981,
+      "step": 8700
+    },
+    {
+      "epoch": 0.6730251519113915,
+      "grad_norm": 4.155121803283691,
+      "learning_rate": 0.0001571981404046438,
+      "loss": 4.3874,
+      "step": 8750
+    },
+    {
+      "epoch": 0.6730251519113915,
+      "eval_loss": 4.418811321258545,
+      "eval_runtime": 18.6306,
+      "eval_samples_per_second": 53.675,
+      "eval_steps_per_second": 13.419,
+      "step": 8750
+    },
+    {
+      "epoch": 0.6768710099223136,
+      "grad_norm": 4.071916580200195,
+      "learning_rate": 0.0001569384203828273,
+      "loss": 4.5531,
+      "step": 8800
+    },
+    {
+      "epoch": 0.6807168679332359,
+      "grad_norm": 3.395460605621338,
+      "learning_rate": 0.00015667870036101085,
+      "loss": 4.4609,
+      "step": 8850
+    },
+    {
+      "epoch": 0.6845627259441581,
+      "grad_norm": 3.4933230876922607,
+      "learning_rate": 0.00015641898033919436,
+      "loss": 4.4536,
+      "step": 8900
+    },
+    {
+      "epoch": 0.6884085839550804,
+      "grad_norm": 6.921072483062744,
+      "learning_rate": 0.00015615926031737788,
+      "loss": 4.3478,
+      "step": 8950
+    },
+    {
+      "epoch": 0.6922544419660026,
+      "grad_norm": 3.920626401901245,
+      "learning_rate": 0.0001558995402955614,
+      "loss": 4.3761,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6922544419660026,
+      "eval_loss": 4.415992259979248,
+      "eval_runtime": 18.5147,
+      "eval_samples_per_second": 54.011,
+      "eval_steps_per_second": 13.503,
+      "step": 9000
     }
   ],
   "logging_steps": 50,