Training in progress, step 10000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46059868a56444f774675df268eb914452898f29b7df82787796af4c7fa5d48d
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:42f1ca9dac6b6ebcdce4b00359a28210be4ba525244b591572f5b2287e25b0f9
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d22244b9bcee513c0db5fa0dd4382afaa1310731018b62ed1ec48732dc32403d
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:93ef9d4a1c4c97b75d44e8a9d7ebd61f014e4cbe01f8111a09cb70d30d2060b0
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24d290d02846044f2e528ff22c1dc13c928158f90f0b3902a3633693e875f22d
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c0943241d3c12af607553b4e6abe354fb336ff905d2c1fb46e1651cbdb980d6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:330590f2dd931f25cb518a6afcc3373fe0b53fe3178be67482b5a6355a86a689
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:233660262675d93c5fec35f1803b0486ea65b8e55d6ffa01a964eeb9acc8c92f
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90087180835653f1b7a3f029c8126085005e238a2fd17bd1f7457696339c6b13
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:250db0f613d9618dc37866ea93a85951fa852bff7fd15eb41a9bb89d17f93c5f
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:121ffc46f9f634ab597be8168f47dd7955b764f9421f382e55c4e5758e2a1624
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd971f0e9f9fab99e52eb560d68aa87eb93fac7faa2dc0c68c4d5d10aa759271
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 9500,
-  "best_metric": 1.8725571632385254,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-9500",
-  "epoch": 0.7307130220752249,
   "eval_steps": 250,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1642,6 +1642,92 @@
       "eval_samples_per_second": 58.852,
       "eval_steps_per_second": 14.713,
       "step": 9500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 10000,
+  "best_metric": 1.8548085689544678,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10000",
+  "epoch": 0.7691716021844474,
   "eval_steps": 250,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.852,
       "eval_steps_per_second": 14.713,
       "step": 9500
+    },
+    {
+      "epoch": 0.7345588800861472,
+      "grad_norm": 1.6844549179077148,
+      "learning_rate": 0.00015302703685427112,
+      "loss": 1.8262,
+      "step": 9550
+    },
+    {
+      "epoch": 0.7384047380970694,
+      "grad_norm": 2.512157678604126,
+      "learning_rate": 0.0001527673168324546,
+      "loss": 1.9319,
+      "step": 9600
+    },
+    {
+      "epoch": 0.7422505961079917,
+      "grad_norm": 1.3238016366958618,
+      "learning_rate": 0.00015250759681063812,
+      "loss": 1.9001,
+      "step": 9650
+    },
+    {
+      "epoch": 0.7460964541189139,
+      "grad_norm": 1.83181631565094,
+      "learning_rate": 0.00015224787678882166,
+      "loss": 1.8324,
+      "step": 9700
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "grad_norm": 1.6106966733932495,
+      "learning_rate": 0.00015198815676700518,
+      "loss": 1.9535,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "eval_loss": 1.873831033706665,
+      "eval_runtime": 17.0343,
+      "eval_samples_per_second": 58.705,
+      "eval_steps_per_second": 14.676,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7537881701407584,
+      "grad_norm": 2.3586697578430176,
+      "learning_rate": 0.0001517284367451887,
+      "loss": 1.858,
+      "step": 9800
+    },
+    {
+      "epoch": 0.7576340281516807,
+      "grad_norm": 0.7499716877937317,
+      "learning_rate": 0.00015146871672337223,
+      "loss": 1.866,
+      "step": 9850
+    },
+    {
+      "epoch": 0.7614798861626029,
+      "grad_norm": 1.3573709726333618,
+      "learning_rate": 0.00015120899670155574,
+      "loss": 1.8636,
+      "step": 9900
+    },
+    {
+      "epoch": 0.7653257441735252,
+      "grad_norm": 2.271859884262085,
+      "learning_rate": 0.00015094927667973923,
+      "loss": 1.8625,
+      "step": 9950
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "grad_norm": 1.8813310861587524,
+      "learning_rate": 0.00015068955665792277,
+      "loss": 1.9318,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "eval_loss": 1.8548085689544678,
+      "eval_runtime": 17.0223,
+      "eval_samples_per_second": 58.746,
+      "eval_steps_per_second": 14.687,
+      "step": 10000
     }
   ],
   "logging_steps": 50,