Training in progress, step 14000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:474b67c549b3ac63215af64bfd5c3e231be24980b37242c9f744a9bc612f0008
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:13e9082dd993ab0c4dc4999c1db1ee4781bb37e4ef2b3309b62916fe0af14e9e
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0480e511efe20f590b2d821022731b40382edf3655bca705228ed05b63128830
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b05a5a771bbfa42b5ce6876a4e742b487145ad1b23810ea34ba9924b54cc834
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1a8b91d626d80e48ce9e4448a6fbe135ae118d67810182f7182aa5d1211e998
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:c567148d53eafd6022545201901938ff6ac986ce6ba91de6582e61fe1a67fdf3
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81ec269cbd23a3955804ddaef963a9e0d68f2087a109e239da5baed50032493e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5de168b313b50f7920582863eb6c48735221da70f052aa0c3517b7e8965981bd
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b7a18a05122b0a199bfed591a89a0565feeaa299af76bd8309bbdc13d5d6b59
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:6148534a27a25fb6f834b4dad22172177ef760e29ec4f90db326b0fc73929937
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba4610d4a5272883eace09557947e58aa9c641822afa7ad93c2a7f7af7024f8b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d4b25db822a02d6858ac9bb141ed0e837701c9de7d32c7960967feccd1d18fc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13000,
-  "best_metric": 1.5119102001190186,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
-  "epoch": 1.038381662949004,
   "eval_steps": 250,
-  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2330,6 +2330,92 @@
       "eval_samples_per_second": 56.144,
       "eval_steps_per_second": 14.036,
       "step": 13500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 13750,
+  "best_metric": 1.5073590278625488,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
+  "epoch": 1.0768402430582262,
   "eval_steps": 250,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.144,
       "eval_steps_per_second": 14.036,
       "step": 13500
+    },
+    {
+      "epoch": 1.042227520959926,
+      "grad_norm": 2.056574583053589,
+      "learning_rate": 0.00013226501831026155,
+      "loss": 1.5387,
+      "step": 13550
+    },
+    {
+      "epoch": 1.0460733789708483,
+      "grad_norm": 1.41805899143219,
+      "learning_rate": 0.00013200529828844506,
+      "loss": 1.4194,
+      "step": 13600
+    },
+    {
+      "epoch": 1.0499192369817707,
+      "grad_norm": 1.5727626085281372,
+      "learning_rate": 0.0001317455782666286,
+      "loss": 1.4763,
+      "step": 13650
+    },
+    {
+      "epoch": 1.0537650949926929,
+      "grad_norm": 1.8175796270370483,
+      "learning_rate": 0.0001314858582448121,
+      "loss": 1.5232,
+      "step": 13700
+    },
+    {
+      "epoch": 1.057610953003615,
+      "grad_norm": 1.459721565246582,
+      "learning_rate": 0.0001312261382229956,
+      "loss": 1.4926,
+      "step": 13750
+    },
+    {
+      "epoch": 1.057610953003615,
+      "eval_loss": 1.5073590278625488,
+      "eval_runtime": 17.8208,
+      "eval_samples_per_second": 56.114,
+      "eval_steps_per_second": 14.029,
+      "step": 13750
+    },
+    {
+      "epoch": 1.0614568110145373,
+      "grad_norm": 1.7236889600753784,
+      "learning_rate": 0.00013096641820117914,
+      "loss": 1.4485,
+      "step": 13800
+    },
+    {
+      "epoch": 1.0653026690254597,
+      "grad_norm": 1.1652172803878784,
+      "learning_rate": 0.00013070669817936265,
+      "loss": 1.4706,
+      "step": 13850
+    },
+    {
+      "epoch": 1.0691485270363819,
+      "grad_norm": 1.1279985904693604,
+      "learning_rate": 0.00013044697815754616,
+      "loss": 1.5507,
+      "step": 13900
+    },
+    {
+      "epoch": 1.072994385047304,
+      "grad_norm": 2.2368061542510986,
+      "learning_rate": 0.0001301872581357297,
+      "loss": 1.5184,
+      "step": 13950
+    },
+    {
+      "epoch": 1.0768402430582262,
+      "grad_norm": 1.1515541076660156,
+      "learning_rate": 0.00012992753811391322,
+      "loss": 1.5184,
+      "step": 14000
+    },
+    {
+      "epoch": 1.0768402430582262,
+      "eval_loss": 1.5123000144958496,
+      "eval_runtime": 17.8325,
+      "eval_samples_per_second": 56.077,
+      "eval_steps_per_second": 14.019,
+      "step": 14000
     }
   ],
   "logging_steps": 50,