Training in progress, step 33500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a1f3a37b9195f9fe5315c1a417cc9c4c1837b6b4960ab692b3988674668e641
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ba4032c8806316e646178801ef99b592ee64fdf0f498f16c746612f51bc00e7
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3523599b620af8d4d35f82aaf704dae1a9541799dcba2ac70510840b2a4877a5
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:2455ad53c45645477aed9b3759432e9e9c8407e4084a49e013986abc8fc7f7ca
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b004e01986e4ffc28df93cce958d9d9b3e3c05bd2e39ed3961cf317990155cfc
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd6f8832ec1dc1733a71a36aefc780b32e10bd6c5f99ceb18e8b4625154891f2
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0849d6e61493156c95f17fe6b7e25f79c73daada8cac211ebd8c78fd56fdbe07
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:30531950e4a0b77af65f33843a2ce8e4c0089055b9101a61e4068183a61f16f1
 size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99769539adfb817adf246fb69dd78f4ed98ef4d44e4b95e77847af02938c82df
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a62584d395be4cf3f57783efb5aff341de6c6d4775795a1ae162154552c4daf8
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba7f7caed94fa0fdab770ae562d792042367a76a376e41d1e68e45e9207a740
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:301e3a937444954f3e90b7bce620ef6813e91f5ce01811f0bf70549ea9c3cae1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.5382662872086765,
   "eval_steps": 250,
-  "global_step": 33000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5684,6 +5684,92 @@
       "eval_samples_per_second": 57.647,
       "eval_steps_per_second": 14.412,
       "step": 33000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.576724867317899,
   "eval_steps": 250,
+  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.647,
       "eval_steps_per_second": 14.412,
       "step": 33000
+    },
+    {
+      "epoch": 2.5421121452195985,
+      "grad_norm": 0.7536977529525757,
+      "learning_rate": 3.100018180401527e-05,
+      "loss": 0.9818,
+      "step": 33050
+    },
+    {
+      "epoch": 2.5459580032305205,
+      "grad_norm": 1.3777302503585815,
+      "learning_rate": 3.074046178219879e-05,
+      "loss": 0.953,
+      "step": 33100
+    },
+    {
+      "epoch": 2.549803861241443,
+      "grad_norm": 0.9286239743232727,
+      "learning_rate": 3.048074176038231e-05,
+      "loss": 1.028,
+      "step": 33150
+    },
+    {
+      "epoch": 2.5536497192523653,
+      "grad_norm": 0.6741893291473389,
+      "learning_rate": 3.022102173856583e-05,
+      "loss": 0.9693,
+      "step": 33200
+    },
+    {
+      "epoch": 2.5574955772632872,
+      "grad_norm": 1.3020586967468262,
+      "learning_rate": 2.9961301716749346e-05,
+      "loss": 0.9673,
+      "step": 33250
+    },
+    {
+      "epoch": 2.5574955772632872,
+      "eval_loss": 1.0041394233703613,
+      "eval_runtime": 17.32,
+      "eval_samples_per_second": 57.737,
+      "eval_steps_per_second": 14.434,
+      "step": 33250
+    },
+    {
+      "epoch": 2.5613414352742097,
+      "grad_norm": 1.4816234111785889,
+      "learning_rate": 2.9701581694932862e-05,
+      "loss": 0.9964,
+      "step": 33300
+    },
+    {
+      "epoch": 2.565187293285132,
+      "grad_norm": 0.8813285827636719,
+      "learning_rate": 2.9441861673116382e-05,
+      "loss": 0.966,
+      "step": 33350
+    },
+    {
+      "epoch": 2.569033151296054,
+      "grad_norm": 1.0042293071746826,
+      "learning_rate": 2.9182141651299898e-05,
+      "loss": 0.9254,
+      "step": 33400
+    },
+    {
+      "epoch": 2.5728790093069764,
+      "grad_norm": 1.5775707960128784,
+      "learning_rate": 2.892242162948342e-05,
+      "loss": 1.0215,
+      "step": 33450
+    },
+    {
+      "epoch": 2.576724867317899,
+      "grad_norm": 1.0266311168670654,
+      "learning_rate": 2.8662701607666937e-05,
+      "loss": 0.9323,
+      "step": 33500
+    },
+    {
+      "epoch": 2.576724867317899,
+      "eval_loss": 1.0002070665359497,
+      "eval_runtime": 17.2317,
+      "eval_samples_per_second": 58.033,
+      "eval_steps_per_second": 14.508,
+      "step": 33500
     }
   ],
   "logging_steps": 50,