Training in progress, step 4500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75410142e7d88776abfc3caa1d65963cd8d85da0ff4f4ef2a8275d75bab13fc7
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:93119a0d9cb064139d255492b711db7396f97fb777f6b21f3047db86160f8da1
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:543307a68c41ab7eab4206e5219ee92650f34cf85fdde0ae16f2041a7d666f3f
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:125ad1b5dfbb7c0433847ba8eef28656d1f2c9a2847dd305ac88da601d14eb44
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ba374ceeab3c18ecca1a51999f0124017113854b9f36714acb5b3cbd2a2d7ce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:271210047536fd837cd0fd091596a0f630f6e94e0fa870a34b128422c282005c
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51fee8eb233312b3e7cebdb2d20739865391ab32cb8dc65d3edc7a1f54a4611d
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c3093554b4b4d0ee00227f47b178cf5d2eae0462d643e6318319b65a22a3843
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c31d829461e38fcd04f37e8cd6d881ff82a519c1416dbfe781c31b6217218abc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:eced77b7b0854293e79cdebb593e6728be6e65566d560277706b561437e8ee74
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 3500,
-  "best_metric": 4.488556861877441,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-3500",
-  "epoch": 0.30766864087377893,
   "eval_steps": 250,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -696,6 +696,92 @@
       "eval_samples_per_second": 53.205,
       "eval_steps_per_second": 13.301,
       "step": 4000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 4500,
+  "best_metric": 4.479401588439941,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-4500",
+  "epoch": 0.3461272209830013,
   "eval_steps": 250,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.205,
       "eval_steps_per_second": 13.301,
       "step": 4000
+    },
+    {
+      "epoch": 0.3115144988847012,
+      "grad_norm": 3.854024648666382,
+      "learning_rate": 0.00011970074629609205,
+      "loss": 4.4989,
+      "step": 4050
+    },
+    {
+      "epoch": 0.3153603568956234,
+      "grad_norm": 4.0870490074157715,
+      "learning_rate": 0.00011944340281607294,
+      "loss": 4.3779,
+      "step": 4100
+    },
+    {
+      "epoch": 0.31920621490654566,
+      "grad_norm": 4.4627251625061035,
+      "learning_rate": 0.0001191860593360538,
+      "loss": 4.5526,
+      "step": 4150
+    },
+    {
+      "epoch": 0.3230520729174679,
+      "grad_norm": 7.568991184234619,
+      "learning_rate": 0.00011892871585603468,
+      "loss": 4.6285,
+      "step": 4200
+    },
+    {
+      "epoch": 0.32689793092839015,
+      "grad_norm": 4.214425086975098,
+      "learning_rate": 0.00011867137237601558,
+      "loss": 4.5328,
+      "step": 4250
+    },
+    {
+      "epoch": 0.32689793092839015,
+      "eval_loss": 4.511099815368652,
+      "eval_runtime": 18.7154,
+      "eval_samples_per_second": 53.432,
+      "eval_steps_per_second": 13.358,
+      "step": 4250
+    },
+    {
+      "epoch": 0.33074378893931233,
+      "grad_norm": 2.3888497352600098,
+      "learning_rate": 0.00011841402889599646,
+      "loss": 4.5408,
+      "step": 4300
+    },
+    {
+      "epoch": 0.3345896469502346,
+      "grad_norm": 3.128143548965454,
+      "learning_rate": 0.00011815668541597735,
+      "loss": 4.3879,
+      "step": 4350
+    },
+    {
+      "epoch": 0.3384355049611568,
+      "grad_norm": 4.353067874908447,
+      "learning_rate": 0.00011789934193595823,
+      "loss": 4.5091,
+      "step": 4400
+    },
+    {
+      "epoch": 0.34228136297207906,
+      "grad_norm": 4.771759986877441,
+      "learning_rate": 0.00011764199845593911,
+      "loss": 4.407,
+      "step": 4450
+    },
+    {
+      "epoch": 0.3461272209830013,
+      "grad_norm": 2.9524829387664795,
+      "learning_rate": 0.00011738465497591999,
+      "loss": 4.3798,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3461272209830013,
+      "eval_loss": 4.479401588439941,
+      "eval_runtime": 18.8172,
+      "eval_samples_per_second": 53.143,
+      "eval_steps_per_second": 13.286,
+      "step": 4500
     }
   ],
   "logging_steps": 50,