Training in progress, step 16500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72bbf1639eb1e5bb9c61f65f54a93961c6ba815ff973db8268065d37b1392548
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:47aa7b6dff74362f082b035925e2a5f7cb54a6d412fcc30408f989b971b037c6
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca4486e1d2b5552334fa9da91cfad2dd01fc4b1d85bf70178d94c3a9a06c15d0
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac0c8a0f8ae72f5f1c6ba696fc1b1a47bee4f015c1aa8caebecb7d165365a472
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2268c750118e17cd7866635da6e44831e071d618455f938ab68da6b4daa1e485
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:d28d5f3a49ada942ec355f276b33d6e4bff345075b872b6e2b651f5666a06f0a
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55844b7da2e1071a7670fddb811c2bc2d24a926bedcc2bd08e1031b2ef69bf6
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac02e2eb311b0a2b3525f61fc41905e20d307e2a487c095f2b84052384c6ffa
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1ee899fe281691d25f12760d42a5b17bb85c5d0104daf152b3a9bdedb20881a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb9a109782b96ee7b703894b485d97bae6299b8517060ebdc76bb5c7072fef6b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 15750,
-  "best_metric": 1.4893933534622192,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-15500",
-  "epoch": 1.2306745634951157,
   "eval_steps": 250,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2760,6 +2760,92 @@
       "eval_samples_per_second": 55.548,
       "eval_steps_per_second": 13.887,
       "step": 16000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 16250,
+  "best_metric": 1.4850120544433594,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-15500",
+  "epoch": 1.2691331436043383,
   "eval_steps": 250,
+  "global_step": 16500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.548,
       "eval_steps_per_second": 13.887,
       "step": 16000
+    },
+    {
+      "epoch": 1.234520421506038,
+      "grad_norm": 1.1019631624221802,
+      "learning_rate": 5.796404543950589e-05,
+      "loss": 1.3918,
+      "step": 16050
+    },
+    {
+      "epoch": 1.2383662795169603,
+      "grad_norm": 1.7206593751907349,
+      "learning_rate": 5.770670195948678e-05,
+      "loss": 1.4726,
+      "step": 16100
+    },
+    {
+      "epoch": 1.2422121375278825,
+      "grad_norm": 1.9747880697250366,
+      "learning_rate": 5.7449358479467666e-05,
+      "loss": 1.4829,
+      "step": 16150
+    },
+    {
+      "epoch": 1.2460579955388047,
+      "grad_norm": 1.605573058128357,
+      "learning_rate": 5.719201499944854e-05,
+      "loss": 1.4476,
+      "step": 16200
+    },
+    {
+      "epoch": 1.2499038535497269,
+      "grad_norm": 1.180405616760254,
+      "learning_rate": 5.6934671519429426e-05,
+      "loss": 1.3904,
+      "step": 16250
+    },
+    {
+      "epoch": 1.2499038535497269,
+      "eval_loss": 1.4850120544433594,
+      "eval_runtime": 18.0422,
+      "eval_samples_per_second": 55.426,
+      "eval_steps_per_second": 13.856,
+      "step": 16250
+    },
+    {
+      "epoch": 1.253749711560649,
+      "grad_norm": 1.9959101676940918,
+      "learning_rate": 5.667732803941031e-05,
+      "loss": 1.4512,
+      "step": 16300
+    },
+    {
+      "epoch": 1.2575955695715715,
+      "grad_norm": 1.8853541612625122,
+      "learning_rate": 5.641998455939119e-05,
+      "loss": 1.458,
+      "step": 16350
+    },
+    {
+      "epoch": 1.2614414275824937,
+      "grad_norm": 1.4618902206420898,
+      "learning_rate": 5.616264107937208e-05,
+      "loss": 1.4968,
+      "step": 16400
+    },
+    {
+      "epoch": 1.2652872855934159,
+      "grad_norm": 1.4913650751113892,
+      "learning_rate": 5.5905297599352965e-05,
+      "loss": 1.3966,
+      "step": 16450
+    },
+    {
+      "epoch": 1.2691331436043383,
+      "grad_norm": 1.3095403909683228,
+      "learning_rate": 5.564795411933384e-05,
+      "loss": 1.4484,
+      "step": 16500
+    },
+    {
+      "epoch": 1.2691331436043383,
+      "eval_loss": 1.4897910356521606,
+      "eval_runtime": 18.0248,
+      "eval_samples_per_second": 55.479,
+      "eval_steps_per_second": 13.87,
+      "step": 16500
     }
   ],
   "logging_steps": 50,