Training in progress, step 5000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32736256c22dee581cce726cace4ad49e7d2340e9e0d45e70e795a7c7d75017f
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:190f0428e79c75fea98ae401d8541afc938c837a01a15c4bff27851efd1dd5ff
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41608b990c978ab6d8dc1c26793cb750782238b85c3400b76fa4199137903300
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc6fe79754f0206b6654ffb1ff34bd91c57fda8a689c690f85d10e6dc833bb2
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0abbf9e53e670e94b4d6c9f0b871f16259814e74491593da1bf6db0fb9680155
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:c76afc96f497ed26d04fa930deb390dd280c8858f2593b0b831d0095f3a4f7e6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:271210047536fd837cd0fd091596a0f630f6e94e0fa870a34b128422c282005c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a263bfee7c334e6fc36b6c4750e79a70eeb042f841889c6eb0ea501e4fa6ac73
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51de76fc3d194041ce1d9d52ff2b3fc00cdee2e0aeb7b6d8e431343a71a85eb4
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f5e01d0dbe696c7f72fcba4635ddf54e7178bc606b00e2f2f7ba88d1189fa69
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da9784da0d0932d47262fa459292b039ea021966742bee090e5b53abad4765f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c41e45efc3657786e1c23c51c4aebb48328108f6732539bee7a77cf7b55107d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 3500,
-  "best_metric": 4.520543098449707,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-3500",
-  "epoch": 0.3461272209830013,
   "eval_steps": 250,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -782,6 +782,92 @@
       "eval_samples_per_second": 53.931,
       "eval_steps_per_second": 13.483,
       "step": 4500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 5000,
+  "best_metric": 4.465761661529541,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
+  "epoch": 0.3845858010922237,
   "eval_steps": 250,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.931,
       "eval_steps_per_second": 13.483,
       "step": 4500
+    },
+    {
+      "epoch": 0.34997307899392355,
+      "grad_norm": 6.404330730438232,
+      "learning_rate": 0.0001790042334363556,
+      "loss": 4.5673,
+      "step": 4550
+    },
+    {
+      "epoch": 0.3538189370048458,
+      "grad_norm": 10.212136268615723,
+      "learning_rate": 0.00017874451341453912,
+      "loss": 4.6249,
+      "step": 4600
+    },
+    {
+      "epoch": 0.35766479501576803,
+      "grad_norm": 4.401816368103027,
+      "learning_rate": 0.00017848479339272266,
+      "loss": 4.6305,
+      "step": 4650
+    },
+    {
+      "epoch": 0.3615106530266903,
+      "grad_norm": 4.710996150970459,
+      "learning_rate": 0.00017822507337090617,
+      "loss": 4.3731,
+      "step": 4700
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "grad_norm": 3.150613307952881,
+      "learning_rate": 0.0001779653533490897,
+      "loss": 4.4491,
+      "step": 4750
+    },
+    {
+      "epoch": 0.36535651103761246,
+      "eval_loss": 4.564510345458984,
+      "eval_runtime": 18.5575,
+      "eval_samples_per_second": 53.886,
+      "eval_steps_per_second": 13.472,
+      "step": 4750
+    },
+    {
+      "epoch": 0.3692023690485347,
+      "grad_norm": 4.828207492828369,
+      "learning_rate": 0.0001777056333272732,
+      "loss": 4.5923,
+      "step": 4800
+    },
+    {
+      "epoch": 0.37304822705945695,
+      "grad_norm": 3.780848264694214,
+      "learning_rate": 0.0001774459133054567,
+      "loss": 4.5544,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3768940850703792,
+      "grad_norm": 4.04913854598999,
+      "learning_rate": 0.00017718619328364023,
+      "loss": 4.5271,
+      "step": 4900
+    },
+    {
+      "epoch": 0.38073994308130144,
+      "grad_norm": 4.097137451171875,
+      "learning_rate": 0.00017692647326182377,
+      "loss": 4.4929,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "grad_norm": 4.65788459777832,
+      "learning_rate": 0.00017666675324000728,
+      "loss": 4.5888,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3845858010922237,
+      "eval_loss": 4.465761661529541,
+      "eval_runtime": 18.6518,
+      "eval_samples_per_second": 53.614,
+      "eval_steps_per_second": 13.404,
+      "step": 5000
     }
   ],
   "logging_steps": 50,