Training in progress, step 6500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d3519cd9f54111b61d5c7bda32b6503a50d9a901f0867b18c77e1c8775d34cc
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e4fa545226f8a1bc971fe1a1680b858ab3cba84884085de4d7bb95fce3027ee
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc8be5680951e9b7e427f6500eddc8c10ce019d345c9c9f83581fc8bb331d518
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:b20c2693c849c11648664638444158f688e791753d1fd5b0a3839f3bf439279b
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fead462933224306a9b42a0eb2433085db43c13976438f5d79faccec086ccd4f
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b38307c83b8af70cb28809299297b128e7799c2bcec4e16e0bf925a16820657
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f460ca4efaa2c47b577474097b3561bee10506073f07d444922fddb74fb1bc7b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3dc41260bd3c4c88915ea4a89c036f2cf6425407a322ee64551935a201e505c
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faa0523a11b32ac61978a5b91bfe471f27b6d880dfaedd29cb6e6516dad00d0b
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:76773cd6ef78ee26a2f9b89a5cdc92391f18eaca0e15a3c1b947462d6c8a47c1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ee9289020d6b3ecd17f692689ed65a2fe5f50143b40afcd424248034cb8eabc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:63a3451545c9d3c80af7346ccecc86c947b582a85ff2768518fe0c4acdf7dcd7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 6000,
   "best_metric": 1.4524279832839966,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-6000",
-  "epoch": 0.4615029613106684,
   "eval_steps": 250,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1040,6 +1040,92 @@
       "eval_samples_per_second": 59.22,
       "eval_steps_per_second": 14.805,
       "step": 6000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 6000,
   "best_metric": 1.4524279832839966,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-6000",
+  "epoch": 0.4999615414198908,
   "eval_steps": 250,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.22,
       "eval_steps_per_second": 14.805,
       "step": 6000
+    },
+    {
+      "epoch": 0.46534881932159067,
+      "grad_norm": 1.1764196157455444,
+      "learning_rate": 0.00017119704958055217,
+      "loss": 1.4821,
+      "step": 6050
+    },
+    {
+      "epoch": 0.4691946773325129,
+      "grad_norm": 0.9580527544021606,
+      "learning_rate": 0.00017093732955873568,
+      "loss": 1.4367,
+      "step": 6100
+    },
+    {
+      "epoch": 0.4730405353434351,
+      "grad_norm": 0.8218849301338196,
+      "learning_rate": 0.0001706776095369192,
+      "loss": 1.4738,
+      "step": 6150
+    },
+    {
+      "epoch": 0.47688639335435734,
+      "grad_norm": 1.0671401023864746,
+      "learning_rate": 0.00017041788951510273,
+      "loss": 1.4951,
+      "step": 6200
+    },
+    {
+      "epoch": 0.4807322513652796,
+      "grad_norm": 1.223479986190796,
+      "learning_rate": 0.00017015816949328625,
+      "loss": 1.4481,
+      "step": 6250
+    },
+    {
+      "epoch": 0.4807322513652796,
+      "eval_loss": 1.4635798931121826,
+      "eval_runtime": 17.0372,
+      "eval_samples_per_second": 58.695,
+      "eval_steps_per_second": 14.674,
+      "step": 6250
+    },
+    {
+      "epoch": 0.4845781093762018,
+      "grad_norm": 1.6794487237930298,
+      "learning_rate": 0.00016989844947146976,
+      "loss": 1.4217,
+      "step": 6300
+    },
+    {
+      "epoch": 0.48842396738712407,
+      "grad_norm": 0.9655230045318604,
+      "learning_rate": 0.0001696387294496533,
+      "loss": 1.4969,
+      "step": 6350
+    },
+    {
+      "epoch": 0.4922698253980463,
+      "grad_norm": 1.2234684228897095,
+      "learning_rate": 0.00016937900942783679,
+      "loss": 1.5139,
+      "step": 6400
+    },
+    {
+      "epoch": 0.49611568340896856,
+      "grad_norm": 2.1821775436401367,
+      "learning_rate": 0.0001691192894060203,
+      "loss": 1.4661,
+      "step": 6450
+    },
+    {
+      "epoch": 0.4999615414198908,
+      "grad_norm": 1.1690566539764404,
+      "learning_rate": 0.00016885956938420384,
+      "loss": 1.4417,
+      "step": 6500
+    },
+    {
+      "epoch": 0.4999615414198908,
+      "eval_loss": 1.452785611152649,
+      "eval_runtime": 16.7494,
+      "eval_samples_per_second": 59.703,
+      "eval_steps_per_second": 14.926,
+      "step": 6500
     }
   ],
   "logging_steps": 50,