Training in progress, step 11500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0355dc1903f621175efb8489eb47a7c37c5bff9cb7109326e9981d55521c5a79
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:81182cbfca2b2395720661b881f3a21449a5b099c10503d0b19c367e80d8f634
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6da8cff90cb20d49e633651c8eacef51daa69bb2f0ab5dff6d6115d2c7b51d28
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:42c56c87a7984be3fc3f577b8760da3264a2bddf0025d9fc0c798ec2f6f0c4bb
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9d988b8500be5654d081e2939fa8df78c5f27a1a3b79fa26f57611a14b3851f
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb6d655c1a0f6279eab1fa2c9b1b8c6ef0b97091c160cac4c8910b84c16c8bc7
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d7167878bddb7c0a88c66ad0b0be73885dac80e1980348d5e68d660c4a16ce9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ce35713c6cfde8b254092a62a162b21058e7d89b73dff276ea2ee9e65249418
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ba0e34e1ad6da2db5da67e847d92cda308dc91647db7b3e13d90fd53261cd77
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:9382b68752d27219353a2e7f7009fa6cadf558aef72af7a459bff228130ca931
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aa74d2c9c42f12a34e14e605ae41a06b5b6cec868a4a2206366586ebba8210c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbe15cb17838928a2afef6da4a5b2daf57c7ac8090013e6c3fbabf17649bf066
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 11000,
   "best_metric": 4.352676868438721,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-11000",
-  "epoch": 0.8460887624028921,
   "eval_steps": 250,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1900,6 +1900,92 @@
       "eval_samples_per_second": 53.816,
       "eval_steps_per_second": 13.454,
       "step": 11000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 11000,
   "best_metric": 4.352676868438721,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-11000",
+  "epoch": 0.8845473425121144,
   "eval_steps": 250,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.816,
       "eval_steps_per_second": 13.454,
       "step": 11000
+    },
+    {
+      "epoch": 0.8499346204138143,
+      "grad_norm": 6.128251075744629,
+      "learning_rate": 0.00014525101940108563,
+      "loss": 4.3993,
+      "step": 11050
+    },
+    {
+      "epoch": 0.8537804784247366,
+      "grad_norm": 3.9961323738098145,
+      "learning_rate": 0.00014499129937926917,
+      "loss": 4.406,
+      "step": 11100
+    },
+    {
+      "epoch": 0.8576263364356588,
+      "grad_norm": 3.889711856842041,
+      "learning_rate": 0.00014473157935745269,
+      "loss": 4.2991,
+      "step": 11150
+    },
+    {
+      "epoch": 0.8614721944465811,
+      "grad_norm": 3.5852463245391846,
+      "learning_rate": 0.00014447185933563617,
+      "loss": 4.2967,
+      "step": 11200
+    },
+    {
+      "epoch": 0.8653180524575033,
+      "grad_norm": 3.343247652053833,
+      "learning_rate": 0.0001442121393138197,
+      "loss": 4.314,
+      "step": 11250
+    },
+    {
+      "epoch": 0.8653180524575033,
+      "eval_loss": 4.387504577636719,
+      "eval_runtime": 18.554,
+      "eval_samples_per_second": 53.897,
+      "eval_steps_per_second": 13.474,
+      "step": 11250
+    },
+    {
+      "epoch": 0.8691639104684256,
+      "grad_norm": 3.5600407123565674,
+      "learning_rate": 0.00014395241929200322,
+      "loss": 4.2958,
+      "step": 11300
+    },
+    {
+      "epoch": 0.8730097684793477,
+      "grad_norm": 4.299932956695557,
+      "learning_rate": 0.00014369269927018674,
+      "loss": 4.2966,
+      "step": 11350
+    },
+    {
+      "epoch": 0.8768556264902699,
+      "grad_norm": 2.5763466358184814,
+      "learning_rate": 0.00014343297924837028,
+      "loss": 4.3739,
+      "step": 11400
+    },
+    {
+      "epoch": 0.8807014845011922,
+      "grad_norm": 3.670653820037842,
+      "learning_rate": 0.0001431732592265538,
+      "loss": 4.3932,
+      "step": 11450
+    },
+    {
+      "epoch": 0.8845473425121144,
+      "grad_norm": 5.472078800201416,
+      "learning_rate": 0.0001429135392047373,
+      "loss": 4.3183,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8845473425121144,
+      "eval_loss": 4.377117156982422,
+      "eval_runtime": 18.5574,
+      "eval_samples_per_second": 53.887,
+      "eval_steps_per_second": 13.472,
+      "step": 11500
     }
   ],
   "logging_steps": 50,