Training in progress, step 38000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3c4fec3fcfea21f991151e26f507a7695fb23bd8b856b2b2f700a67bb497070
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fd57c393f47a10fedc0eeb53eea073bec9f5d74a93432c74ef773c66fc48524
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af333093453e4833a3b8e0d94d92ddd95f295c0d87e9e98a54a6ad3c390330e9
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bd9ca616ae823c9a3f8ca31216995734a05d8ab02efa11d199d90e7767f414c
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c332c5ce1f57e169c0226452b69be2dc4fb900c8955ca04e773762307c8e5eb4
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:7db25f3289aeb2b9363ef193bde6f97fc98f831d0d2faf2aba478e02c7461eb7
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddcf88ff022861d1e6c33a55560d1a3aa75a31ecba95d857fc1b29571146d9d8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fe094da8ad1e1bf555c74dca2c7341b574c5a3cf7d8c3a98ff15eda79c695fe
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7b74025bac6cdf338bbaffce8798d5ebfeba84e2c0590feb5feb5210c2d2221
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:da55266e7e44775541aba7dfea6ddb4ce98b63d56ca8b7cf213a395f32135776
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f59e689571d05ebe27330dcd7978075e538dfc70e5b33155dcbd08ae7037e11
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:82bb4fe5bf3e8542933d8cb52c350875b68d38b60b96f875a9ab6b9538329c08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.7226839661598206,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-31000",
-  "epoch": 2.8843935081916774,
   "eval_steps": 250,
-  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6458,6 +6458,92 @@
       "eval_samples_per_second": 55.754,
       "eval_steps_per_second": 13.939,
       "step": 37500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.7226839661598206,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-31000",
+  "epoch": 2.9228520883008997,
   "eval_steps": 250,
+  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.754,
       "eval_steps_per_second": 13.939,
       "step": 37500
+    },
+    {
+      "epoch": 2.8882393662026,
+      "grad_norm": 0.6858485341072083,
+      "learning_rate": 7.6201854400955775e-06,
+      "loss": 0.7132,
+      "step": 37550
+    },
+    {
+      "epoch": 2.892085224213522,
+      "grad_norm": 0.7138088345527649,
+      "learning_rate": 7.3604654182790955e-06,
+      "loss": 0.7082,
+      "step": 37600
+    },
+    {
+      "epoch": 2.895931082224444,
+      "grad_norm": 0.4927150309085846,
+      "learning_rate": 7.100745396462613e-06,
+      "loss": 0.7551,
+      "step": 37650
+    },
+    {
+      "epoch": 2.8997769402353666,
+      "grad_norm": 0.879112720489502,
+      "learning_rate": 6.841025374646131e-06,
+      "loss": 0.7228,
+      "step": 37700
+    },
+    {
+      "epoch": 2.903622798246289,
+      "grad_norm": 1.2699699401855469,
+      "learning_rate": 6.58130535282965e-06,
+      "loss": 0.7208,
+      "step": 37750
+    },
+    {
+      "epoch": 2.903622798246289,
+      "eval_loss": 0.7685362696647644,
+      "eval_runtime": 17.9674,
+      "eval_samples_per_second": 55.656,
+      "eval_steps_per_second": 13.914,
+      "step": 37750
+    },
+    {
+      "epoch": 2.907468656257211,
+      "grad_norm": 0.7341476082801819,
+      "learning_rate": 6.321585331013168e-06,
+      "loss": 0.761,
+      "step": 37800
+    },
+    {
+      "epoch": 2.9113145142681334,
+      "grad_norm": 0.8890082836151123,
+      "learning_rate": 6.061865309196686e-06,
+      "loss": 0.6837,
+      "step": 37850
+    },
+    {
+      "epoch": 2.9151603722790553,
+      "grad_norm": 0.5546180009841919,
+      "learning_rate": 5.802145287380204e-06,
+      "loss": 0.7126,
+      "step": 37900
+    },
+    {
+      "epoch": 2.9190062302899777,
+      "grad_norm": 0.7684674263000488,
+      "learning_rate": 5.542425265563723e-06,
+      "loss": 0.6765,
+      "step": 37950
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "grad_norm": 0.8968291282653809,
+      "learning_rate": 5.2827052437472405e-06,
+      "loss": 0.6839,
+      "step": 38000
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "eval_loss": 0.7687397003173828,
+      "eval_runtime": 17.8165,
+      "eval_samples_per_second": 56.128,
+      "eval_steps_per_second": 14.032,
+      "step": 38000
     }
   ],
   "logging_steps": 50,