Training in progress, step 4500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b1420e5f67ba76bfd4febfb8166681a03c08ca555de4aa6aed11752038beb7c
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:32736256c22dee581cce726cace4ad49e7d2340e9e0d45e70e795a7c7d75017f
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:631f5d8920185c1643d4b91793959905c6ffb5cfdb99578fa1feeb9561f6cc11
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:41608b990c978ab6d8dc1c26793cb750782238b85c3400b76fa4199137903300
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b56e183e85858df2561ffd8210747bca3130019aa445c6931bdecb14ee1c1463
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:0abbf9e53e670e94b4d6c9f0b871f16259814e74491593da1bf6db0fb9680155
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ba374ceeab3c18ecca1a51999f0124017113854b9f36714acb5b3cbd2a2d7ce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:271210047536fd837cd0fd091596a0f630f6e94e0fa870a34b128422c282005c
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56099c2856f5340cf7eae161f2a31dbe463e29390c14dc50fb171114345187df
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:51de76fc3d194041ce1d9d52ff2b3fc00cdee2e0aeb7b6d8e431343a71a85eb4
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97c85fac85989286832186f4fae10d665a033afecb7b12aeb8bf5a4a199aa56c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da9784da0d0932d47262fa459292b039ea021966742bee090e5b53abad4765f5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 3500,
   "best_metric": 4.520543098449707,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-3500",
-  "epoch": 0.30766864087377893,
   "eval_steps": 250,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -696,6 +696,92 @@
       "eval_samples_per_second": 54.279,
       "eval_steps_per_second": 13.57,
       "step": 4000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 3500,
   "best_metric": 4.520543098449707,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-3500",
+  "epoch": 0.3461272209830013,
   "eval_steps": 250,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.279,
       "eval_steps_per_second": 13.57,
       "step": 4000
+    },
+    {
+      "epoch": 0.3115144988847012,
+      "grad_norm": 5.374965190887451,
+      "learning_rate": 0.00018159623925408412,
+      "loss": 4.5327,
+      "step": 4050
+    },
+    {
+      "epoch": 0.3153603568956234,
+      "grad_norm": 4.99652624130249,
+      "learning_rate": 0.00018133651923226763,
+      "loss": 4.3966,
+      "step": 4100
+    },
+    {
+      "epoch": 0.31920621490654566,
+      "grad_norm": 6.257124423980713,
+      "learning_rate": 0.00018107679921045114,
+      "loss": 4.5792,
+      "step": 4150
+    },
+    {
+      "epoch": 0.3230520729174679,
+      "grad_norm": 8.056533813476562,
+      "learning_rate": 0.00018081707918863465,
+      "loss": 4.6401,
+      "step": 4200
+    },
+    {
+      "epoch": 0.32689793092839015,
+      "grad_norm": 4.024567127227783,
+      "learning_rate": 0.00018055735916681817,
+      "loss": 4.5516,
+      "step": 4250
+    },
+    {
+      "epoch": 0.32689793092839015,
+      "eval_loss": 4.558110237121582,
+      "eval_runtime": 18.5343,
+      "eval_samples_per_second": 53.954,
+      "eval_steps_per_second": 13.488,
+      "step": 4250
+    },
+    {
+      "epoch": 0.33074378893931233,
+      "grad_norm": 2.4326066970825195,
+      "learning_rate": 0.0001802976391450017,
+      "loss": 4.5761,
+      "step": 4300
+    },
+    {
+      "epoch": 0.3345896469502346,
+      "grad_norm": 2.7615299224853516,
+      "learning_rate": 0.00018003791912318522,
+      "loss": 4.4291,
+      "step": 4350
+    },
+    {
+      "epoch": 0.3384355049611568,
+      "grad_norm": 3.9387362003326416,
+      "learning_rate": 0.00017977819910136873,
+      "loss": 4.5422,
+      "step": 4400
+    },
+    {
+      "epoch": 0.34228136297207906,
+      "grad_norm": 23.72602653503418,
+      "learning_rate": 0.00017951847907955227,
+      "loss": 4.4379,
+      "step": 4450
+    },
+    {
+      "epoch": 0.3461272209830013,
+      "grad_norm": 2.968930959701538,
+      "learning_rate": 0.0001792639534581721,
+      "loss": 4.433,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3461272209830013,
+      "eval_loss": 4.5359063148498535,
+      "eval_runtime": 18.5422,
+      "eval_samples_per_second": 53.931,
+      "eval_steps_per_second": 13.483,
+      "step": 4500
     }
   ],
   "logging_steps": 50,