Training in progress, step 2500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5284a72c66df303e073df72ce9f1ae1e29ea633668e40d9822a8ccaa64add555
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2b4cbe8b1b80bab80643ae95440812326a8a6e7bccc79e0f31fd0b001f92483
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8358e2ab5d7859161edb7560d72769c1dccae73dcd94f8bb280a6f4c6a418e5
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:683cb6e78851437b6d551b60a7733fd0cf8a96582a781e0a27157158ccd47347
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7c9308b4bec49af406c284201ce7a6649c508431fa62b7fd440c998b6a016ca
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:142ce534c6cf070debd44d21ea1fe5c477f0438570d559dbda8928fe80687677
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2512ba1bd332fd1303d75224b66504a865cf77c5c151bdcdfcda52c23dbe2db6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:74818f2f3daacf3c0fca3dde38a211872e713dacdefaa18d7435559b30dc197d
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b71627c700396d7041b5a8f195ae9cbb8512fe53c30c6da53a207b7194343ba8
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:21c1bf6c47692563bb8660483ef35d0f3e0d75e9fd318c04f77453b710e51e5c
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d83848f1b1bfd2394c14189ddfec57565343ac6855bbb1685fedf0549ec3643
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:eeeb94e0675525b5bb02698eb79efe748a90c2efeae2eda028133bdd4c5927c0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 4.666446208953857,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-2000",
-  "epoch": 0.15383432043688947,
   "eval_steps": 250,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -352,6 +352,92 @@
       "eval_samples_per_second": 54.414,
       "eval_steps_per_second": 13.604,
       "step": 2000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 2500,
+  "best_metric": 4.597048282623291,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-2500",
+  "epoch": 0.19229290054611184,
   "eval_steps": 250,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.414,
       "eval_steps_per_second": 13.604,
       "step": 2000
+    },
+    {
+      "epoch": 0.1576801784478117,
+      "grad_norm": 6.46567964553833,
+      "learning_rate": 0.00019198504012674338,
+      "loss": 4.8124,
+      "step": 2050
+    },
+    {
+      "epoch": 0.16152603645873395,
+      "grad_norm": 4.300732135772705,
+      "learning_rate": 0.0001917253201049269,
+      "loss": 4.7302,
+      "step": 2100
+    },
+    {
+      "epoch": 0.16537189446965617,
+      "grad_norm": 4.140190601348877,
+      "learning_rate": 0.0001914656000831104,
+      "loss": 4.6498,
+      "step": 2150
+    },
+    {
+      "epoch": 0.1692177524805784,
+      "grad_norm": 3.221662998199463,
+      "learning_rate": 0.00019120588006129395,
+      "loss": 4.6428,
+      "step": 2200
+    },
+    {
+      "epoch": 0.17306361049150065,
+      "grad_norm": 2.6079111099243164,
+      "learning_rate": 0.00019094616003947746,
+      "loss": 4.6115,
+      "step": 2250
+    },
+    {
+      "epoch": 0.17306361049150065,
+      "eval_loss": 4.661706924438477,
+      "eval_runtime": 18.7413,
+      "eval_samples_per_second": 53.358,
+      "eval_steps_per_second": 13.34,
+      "step": 2250
+    },
+    {
+      "epoch": 0.1769094685024229,
+      "grad_norm": 4.190133094787598,
+      "learning_rate": 0.00019068644001766095,
+      "loss": 4.7041,
+      "step": 2300
+    },
+    {
+      "epoch": 0.18075532651334514,
+      "grad_norm": 5.242035388946533,
+      "learning_rate": 0.0001904267199958445,
+      "loss": 4.6656,
+      "step": 2350
+    },
+    {
+      "epoch": 0.18460118452426735,
+      "grad_norm": 6.203541278839111,
+      "learning_rate": 0.000190166999974028,
+      "loss": 4.6835,
+      "step": 2400
+    },
+    {
+      "epoch": 0.1884470425351896,
+      "grad_norm": 2.8591034412384033,
+      "learning_rate": 0.00018990727995221151,
+      "loss": 4.6751,
+      "step": 2450
+    },
+    {
+      "epoch": 0.19229290054611184,
+      "grad_norm": 5.204433441162109,
+      "learning_rate": 0.00018964755993039505,
+      "loss": 4.7301,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19229290054611184,
+      "eval_loss": 4.597048282623291,
+      "eval_runtime": 18.5098,
+      "eval_samples_per_second": 54.025,
+      "eval_steps_per_second": 13.506,
+      "step": 2500
     }
   ],
   "logging_steps": 50,