Training in progress, step 21500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8231b5839b3fd47ad5cce000da3f4e051d7af6920ced1cf4cb54e84597d2b4b4
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:a15735cee6a081c034ee0a7775a5bd0e6cd549717f7509e7cac3a604e2b5ece6
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed47ddac3643ee93d1379696697c4c75dda7c0901e6d1bb4df3a71e2beb6b586
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1989d46f84770def08bc86fa4f365fd487bca1f5ce4a5f6b3c39adc01e8043b
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c5132bfe30a63a6382081eeb67e311e07e2d98916afbc38ab8f8ba0c010b059
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:24cdd6f45f9ebce887e06d548bf949bd18ccf52b17999d18752823b6dd7dc03a
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bde6e1dd1720140d45bcd90f5619a65ccf408846b486bcff0e4f949114af183
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bb9f4faaa4ec0530a4b6c0b900d92b0246f7d7e281fc5a146d4979b5987fc8e
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f258c2638ad619fb6ebcf7d3e37d8ff87a3bfd1b69337c35619ebe6b4477e7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c15c154285d68d5fe6fd0358f59f07ef7cc4e4e79592695b393ca4cfdda9f3f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 21000,
   "best_metric": 1.467063307762146,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-21000",
-  "epoch": 1.6152603645873396,
   "eval_steps": 250,
-  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3620,6 +3620,92 @@
       "eval_samples_per_second": 55.32,
       "eval_steps_per_second": 13.83,
       "step": 21000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 21000,
   "best_metric": 1.467063307762146,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-21000",
+  "epoch": 1.6537189446965619,
   "eval_steps": 250,
+  "global_step": 21500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.32,
       "eval_steps_per_second": 13.83,
       "step": 21000
+    },
+    {
+      "epoch": 1.6191062225982615,
+      "grad_norm": 2.016814708709717,
+      "learning_rate": 3.223484430719458e-05,
+      "loss": 1.434,
+      "step": 21050
+    },
+    {
+      "epoch": 1.622952080609184,
+      "grad_norm": 1.5766371488571167,
+      "learning_rate": 3.197750082717547e-05,
+      "loss": 1.4249,
+      "step": 21100
+    },
+    {
+      "epoch": 1.6267979386201061,
+      "grad_norm": 2.3865230083465576,
+      "learning_rate": 3.172015734715635e-05,
+      "loss": 1.6,
+      "step": 21150
+    },
+    {
+      "epoch": 1.6306437966310283,
+      "grad_norm": 1.193731427192688,
+      "learning_rate": 3.1462813867137236e-05,
+      "loss": 1.5674,
+      "step": 21200
+    },
+    {
+      "epoch": 1.6344896546419507,
+      "grad_norm": 1.4854563474655151,
+      "learning_rate": 3.120547038711812e-05,
+      "loss": 1.4788,
+      "step": 21250
+    },
+    {
+      "epoch": 1.6344896546419507,
+      "eval_loss": 1.4725981950759888,
+      "eval_runtime": 18.2185,
+      "eval_samples_per_second": 54.889,
+      "eval_steps_per_second": 13.722,
+      "step": 21250
+    },
+    {
+      "epoch": 1.6383355126528727,
+      "grad_norm": 1.3907707929611206,
+      "learning_rate": 3.0948126907099e-05,
+      "loss": 1.4752,
+      "step": 21300
+    },
+    {
+      "epoch": 1.642181370663795,
+      "grad_norm": 1.5267348289489746,
+      "learning_rate": 3.069078342707988e-05,
+      "loss": 1.4198,
+      "step": 21350
+    },
+    {
+      "epoch": 1.6460272286747173,
+      "grad_norm": 1.2138367891311646,
+      "learning_rate": 3.0433439947060768e-05,
+      "loss": 1.4302,
+      "step": 21400
+    },
+    {
+      "epoch": 1.6498730866856395,
+      "grad_norm": 1.3399436473846436,
+      "learning_rate": 3.017609646704165e-05,
+      "loss": 1.5098,
+      "step": 21450
+    },
+    {
+      "epoch": 1.6537189446965619,
+      "grad_norm": 1.543906569480896,
+      "learning_rate": 2.991875298702253e-05,
+      "loss": 1.4577,
+      "step": 21500
+    },
+    {
+      "epoch": 1.6537189446965619,
+      "eval_loss": 1.475114345550537,
+      "eval_runtime": 18.0585,
+      "eval_samples_per_second": 55.376,
+      "eval_steps_per_second": 13.844,
+      "step": 21500
     }
   ],
   "logging_steps": 50,