Training in progress, step 31000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99d93c7c60c932d10ad33d1552af0aac71474f293137a45805a4a2ce763ee9d3
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaeede45da47f0d75d62e988c6ec4e75278f17721a6f05fc8fadaeb434482f59
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35dbfc13847779b0a35938e8b0f588714c0a9135f44df01b3743c87ca265465a
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:63e60a966b76339936843c940f84b9ea07a91ec1e4d63f98283ff1b088f9fde6
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6542d07369db36fde40d38be458a1a754a1635e655b17a3c1ef863154ef95d8
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:187283a9cec55184e3ccd0a3e0d5f383455ef16110c948463ba075754a4a4a69
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d84d85985e40eaca2f8aecd8e39909983ecc43ecb61e48fd72ba84ffc8de605b
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1377909bbeca185f1cd667205e5ee426651b530652d98a241a6435759b20841
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:425d397e4698665694b259ae6a1b829b317ed54337dd9e06f3cd56fd2ec805f8
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:0805ae3d6f83adad04a95ac3342264a30fddb6eac2cd341698788c5b29bb3024
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:840262f69bbf64219997ced1350b5b0f0a6ada0892f4ec21d8f526e52fcbb247
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:52fbed6fec9b9318154947715651eba157eaae1cb8891751ee3a2257f6530107
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.3459733866625645,
   "eval_steps": 250,
-  "global_step": 30500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5254,6 +5254,92 @@
       "eval_samples_per_second": 57.682,
       "eval_steps_per_second": 14.421,
       "step": 30500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.384431966771787,
   "eval_steps": 250,
+  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.682,
       "eval_steps_per_second": 14.421,
       "step": 30500
+    },
+    {
+      "epoch": 2.3498192446734865,
+      "grad_norm": 0.9951680302619934,
+      "learning_rate": 4.398098849440303e-05,
+      "loss": 1.0062,
+      "step": 30550
+    },
+    {
+      "epoch": 2.353665102684409,
+      "grad_norm": 0.5752933025360107,
+      "learning_rate": 4.372126847258655e-05,
+      "loss": 0.9649,
+      "step": 30600
+    },
+    {
+      "epoch": 2.3575109606953313,
+      "grad_norm": 1.0051320791244507,
+      "learning_rate": 4.346154845077007e-05,
+      "loss": 0.9958,
+      "step": 30650
+    },
+    {
+      "epoch": 2.3613568187062532,
+      "grad_norm": 0.7760717868804932,
+      "learning_rate": 4.320182842895359e-05,
+      "loss": 1.0125,
+      "step": 30700
+    },
+    {
+      "epoch": 2.3652026767171757,
+      "grad_norm": 0.852301836013794,
+      "learning_rate": 4.294210840713711e-05,
+      "loss": 0.9523,
+      "step": 30750
+    },
+    {
+      "epoch": 2.3652026767171757,
+      "eval_loss": 1.003655195236206,
+      "eval_runtime": 17.3241,
+      "eval_samples_per_second": 57.723,
+      "eval_steps_per_second": 14.431,
+      "step": 30750
+    },
+    {
+      "epoch": 2.3690485347280976,
+      "grad_norm": 0.9062100648880005,
+      "learning_rate": 4.2682388385320624e-05,
+      "loss": 0.9735,
+      "step": 30800
+    },
+    {
+      "epoch": 2.37289439273902,
+      "grad_norm": 1.309615969657898,
+      "learning_rate": 4.2427862763940476e-05,
+      "loss": 0.9668,
+      "step": 30850
+    },
+    {
+      "epoch": 2.3767402507499424,
+      "grad_norm": 1.0907591581344604,
+      "learning_rate": 4.2168142742123995e-05,
+      "loss": 0.9502,
+      "step": 30900
+    },
+    {
+      "epoch": 2.3805861087608644,
+      "grad_norm": 1.0946288108825684,
+      "learning_rate": 4.190842272030751e-05,
+      "loss": 0.9545,
+      "step": 30950
+    },
+    {
+      "epoch": 2.384431966771787,
+      "grad_norm": 1.225540280342102,
+      "learning_rate": 4.164870269849103e-05,
+      "loss": 0.9635,
+      "step": 31000
+    },
+    {
+      "epoch": 2.384431966771787,
+      "eval_loss": 1.0031681060791016,
+      "eval_runtime": 17.2062,
+      "eval_samples_per_second": 58.119,
+      "eval_steps_per_second": 14.53,
+      "step": 31000
     }
   ],
   "logging_steps": 50,