Training in progress, step 35000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53c2dc91061b5eda8052d1184b1536e107f67954828f13fc73c5f566d9eec7e7
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e859ba9561b55c4713545dc47c401bfb524b089ca9535702dcd1494059b3820
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd069bd3f52dbe1e9e9aa12f2a80d00bcd8aecaa208ac2ee4066c63760aef004
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f14825ac12e33d198b451f7e856b892bba4b3f9adb0c77a6ed825bd184145a9
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f6e144665188da17e67d918c6abe6a3a0b2a9a0712038ae5ff60cbb2015b996
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f37ff6c2cf1b8fc28fe79a96b16d82c777a40f9ae1a62213e0d40ea69913852
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2aa00c75821a3bd67f749b822eac4f44391e9055a1d2f4b3c96ab88dfd278a9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:420ba1bac282b79318028dd15898492f4873416a2a773ea36e1d51488979f42b
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fe927b439a1a453ba57ba9d3a3e3ce57ef03a538257a3403279d996da7cbd98
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:512c2f45e554afd2937a0615962c874313642439d4843c36db50a18a20e03902
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b632fa657d89cf9d024b864a979b41e9d4484feec7658b4550443a85b8f54ac3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc40176b44fff927c20f1bac9b67d6ff31ea020f24aee448725b6d82a306f911
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
-  "epoch": 2.6536420275363435,
   "eval_steps": 250,
-  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5942,6 +5942,92 @@
       "eval_samples_per_second": 58.131,
       "eval_steps_per_second": 14.533,
       "step": 34500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.692100607645566,
   "eval_steps": 250,
+  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.131,
       "eval_steps_per_second": 14.533,
       "step": 34500
+    },
+    {
+      "epoch": 2.6574878855472654,
+      "grad_norm": 1.3329054117202759,
+      "learning_rate": 2.3208581149520815e-05,
+      "loss": 1.0035,
+      "step": 34550
+    },
+    {
+      "epoch": 2.661333743558188,
+      "grad_norm": 0.8142715096473694,
+      "learning_rate": 2.2948861127704335e-05,
+      "loss": 0.9783,
+      "step": 34600
+    },
+    {
+      "epoch": 2.6651796015691103,
+      "grad_norm": 0.5424798130989075,
+      "learning_rate": 2.2689141105887855e-05,
+      "loss": 0.9754,
+      "step": 34650
+    },
+    {
+      "epoch": 2.6690254595800322,
+      "grad_norm": 0.8890462517738342,
+      "learning_rate": 2.2429421084071374e-05,
+      "loss": 0.9707,
+      "step": 34700
+    },
+    {
+      "epoch": 2.6728713175909546,
+      "grad_norm": 1.0329838991165161,
+      "learning_rate": 2.216970106225489e-05,
+      "loss": 0.9845,
+      "step": 34750
+    },
+    {
+      "epoch": 2.6728713175909546,
+      "eval_loss": 0.9899721741676331,
+      "eval_runtime": 17.3008,
+      "eval_samples_per_second": 57.801,
+      "eval_steps_per_second": 14.45,
+      "step": 34750
+    },
+    {
+      "epoch": 2.676717175601877,
+      "grad_norm": 1.0697598457336426,
+      "learning_rate": 2.190998104043841e-05,
+      "loss": 1.0167,
+      "step": 34800
+    },
+    {
+      "epoch": 2.680563033612799,
+      "grad_norm": 0.8134399056434631,
+      "learning_rate": 2.1650261018621926e-05,
+      "loss": 0.9001,
+      "step": 34850
+    },
+    {
+      "epoch": 2.684408891623721,
+      "grad_norm": 1.0405962467193604,
+      "learning_rate": 2.1390540996805446e-05,
+      "loss": 1.0184,
+      "step": 34900
+    },
+    {
+      "epoch": 2.6882547496346434,
+      "grad_norm": 1.3229318857192993,
+      "learning_rate": 2.1130820974988962e-05,
+      "loss": 0.9556,
+      "step": 34950
+    },
+    {
+      "epoch": 2.692100607645566,
+      "grad_norm": 1.2907413244247437,
+      "learning_rate": 2.087110095317248e-05,
+      "loss": 0.9355,
+      "step": 35000
+    },
+    {
+      "epoch": 2.692100607645566,
+      "eval_loss": 0.9918172359466553,
+      "eval_runtime": 17.2562,
+      "eval_samples_per_second": 57.95,
+      "eval_steps_per_second": 14.488,
+      "step": 35000
     }
   ],
   "logging_steps": 50,