Training in progress, step 13000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4563a36b3299867126e2f2872e4b74a5609a7c6cb213d2085d095900f9215fa3
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2d7fcaf2efe42ffb5f3c9e028de2d4020155b47fd00969c045a7b96f9a500e0
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9ead48f8f886b45b9f89bef7b002712a2b38bb6cc69a0971816a685b1318dd1
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:828b8db8ad6923c1cf715c1424f34fe8d45d1942c07709d2ed3e3b91c7b41825
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea5c1fbeda3adc57688fb9a2ac22bbf43523ff5c2f34a45a7dd94247c865d2ac
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:81731a2aece3051885d7289cef2d696a33b091ba71fd2ad97dba80506614db51
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5ae118ec673d57a7f62a6284956ef83acf5113a9420dcd7ba5fd941799b59c
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbf8948534182fde8a4da31776a53cc78337e1e18ed4b526e2ee8ca99eff5731
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe8cf9d8bac2dd71fd820efd0a6b09790c369caf5e00f7d2853b196fd0826191
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1a2f8fe642f01391ef2e54fcf96a41d1f8399b7293ea1f181058d0539b5b33d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fab19116031cb09fcbccb12fc7d5785df4d500dae544895e7f9a43d44ebf2019
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b23dccdca16565cb13b99c2e00b6827579e6c2cc8759c8f2106a0579d096c8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 12250,
-  "best_metric": 1.5220181941986084,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-12000",
-  "epoch": 0.9614645027305592,
   "eval_steps": 250,
-  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2158,6 +2158,92 @@
       "eval_samples_per_second": 56.369,
       "eval_steps_per_second": 14.092,
       "step": 12500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 13000,
+  "best_metric": 1.5119102001190186,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
+  "epoch": 0.9999230828397816,
   "eval_steps": 250,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.369,
       "eval_steps_per_second": 14.092,
       "step": 12500
+    },
+    {
+      "epoch": 0.9653103607414815,
+      "grad_norm": 1.888836145401001,
+      "learning_rate": 0.00013745941874659118,
+      "loss": 1.5681,
+      "step": 12550
+    },
+    {
+      "epoch": 0.9691562187524037,
+      "grad_norm": 1.4329860210418701,
+      "learning_rate": 0.0001371996987247747,
+      "loss": 1.5018,
+      "step": 12600
+    },
+    {
+      "epoch": 0.973002076763326,
+      "grad_norm": 1.969533920288086,
+      "learning_rate": 0.00013693997870295823,
+      "loss": 1.5494,
+      "step": 12650
+    },
+    {
+      "epoch": 0.9768479347742481,
+      "grad_norm": 2.1219890117645264,
+      "learning_rate": 0.00013668025868114175,
+      "loss": 1.5386,
+      "step": 12700
+    },
+    {
+      "epoch": 0.9806937927851703,
+      "grad_norm": 1.6632941961288452,
+      "learning_rate": 0.00013642053865932526,
+      "loss": 1.5253,
+      "step": 12750
+    },
+    {
+      "epoch": 0.9806937927851703,
+      "eval_loss": 1.5147372484207153,
+      "eval_runtime": 17.8072,
+      "eval_samples_per_second": 56.157,
+      "eval_steps_per_second": 14.039,
+      "step": 12750
+    },
+    {
+      "epoch": 0.9845396507960926,
+      "grad_norm": 1.292913794517517,
+      "learning_rate": 0.00013616081863750877,
+      "loss": 1.4413,
+      "step": 12800
+    },
+    {
+      "epoch": 0.9883855088070148,
+      "grad_norm": 1.1377824544906616,
+      "learning_rate": 0.00013590109861569228,
+      "loss": 1.5705,
+      "step": 12850
+    },
+    {
+      "epoch": 0.9922313668179371,
+      "grad_norm": 1.656996726989746,
+      "learning_rate": 0.0001356413785938758,
+      "loss": 1.5311,
+      "step": 12900
+    },
+    {
+      "epoch": 0.9960772248288593,
+      "grad_norm": 1.6639357805252075,
+      "learning_rate": 0.00013538165857205934,
+      "loss": 1.5676,
+      "step": 12950
+    },
+    {
+      "epoch": 0.9999230828397816,
+      "grad_norm": 1.0893466472625732,
+      "learning_rate": 0.00013512193855024285,
+      "loss": 1.5215,
+      "step": 13000
+    },
+    {
+      "epoch": 0.9999230828397816,
+      "eval_loss": 1.5119102001190186,
+      "eval_runtime": 17.7291,
+      "eval_samples_per_second": 56.404,
+      "eval_steps_per_second": 14.101,
+      "step": 13000
     }
   ],
   "logging_steps": 50,