Training in progress, step 37500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9cae79982037b0452f88044e66e5767215389fccb1f927236fe4f45e26d9504
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c27b235ffd7eb3533febc9af0f60470e3dba0b8e45360272535091fdccd177b
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54bc70c1b2659e8cf4a531b6927e07e28f599374e8be262691d66ada5fbe0c3e
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:696e56b33a026fc5d8957bdce7458fb9a6f7ad74969dc7cd1a68cbc7a0b070a7
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4200f071699c851f6d878a635058a9544f3a748301e98f6330acbcbe7627da2
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:31f016b3f65efa39acc365f2cd200e250e466d276146e2b7b6697bb3bf4c7a78
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6364eda1ec8fc4c6324fd5a2a0079028d1479286c7c9330101ded35fc9bcedd3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:97f5694df4cc55cfb23211b8e8f8f54247ffb944ba00f7e779e21697183c2f1f
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0470b2f59ff591bc600871f7546ce2622ab2681c7ababfb55c537235153f145
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cc58fd6b30bc41899d1238111aee5cdb3d8eeebbfe25f934de223f53728d54d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ce717bb1ff7d19ce8b39673c5e006d14b3fec124190d834c88a63ab05da6d0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 36750,
-  "best_metric": -30.470460891723633,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-36500",
-  "epoch": 2.845934928082455,
   "eval_steps": 250,
-  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6372,6 +6372,92 @@
       "eval_samples_per_second": 59.475,
       "eval_steps_per_second": 14.869,
       "step": 37000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 37500,
+  "best_metric": -30.470531463623047,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-37500",
+  "epoch": 2.8843935081916774,
   "eval_steps": 250,
+  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.475,
       "eval_steps_per_second": 14.869,
       "step": 37000
+    },
+    {
+      "epoch": 2.8497807860933775,
+      "grad_norm": 0.8433590531349182,
+      "learning_rate": 1.0227774459133055e-05,
+      "loss": -30.4661,
+      "step": 37050
+    },
+    {
+      "epoch": 2.8536266441043,
+      "grad_norm": 0.6508035063743591,
+      "learning_rate": 9.968054437316573e-06,
+      "loss": -30.4663,
+      "step": 37100
+    },
+    {
+      "epoch": 2.857472502115222,
+      "grad_norm": 1.3801597356796265,
+      "learning_rate": 9.70833441550009e-06,
+      "loss": -30.4662,
+      "step": 37150
+    },
+    {
+      "epoch": 2.8613183601261443,
+      "grad_norm": 0.7447367906570435,
+      "learning_rate": 9.448614393683609e-06,
+      "loss": -30.4663,
+      "step": 37200
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "grad_norm": 1.370768666267395,
+      "learning_rate": 9.188894371867128e-06,
+      "loss": -30.4661,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "eval_loss": -30.470088958740234,
+      "eval_runtime": 16.7498,
+      "eval_samples_per_second": 59.702,
+      "eval_steps_per_second": 14.926,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8690100761479886,
+      "grad_norm": 1.3880547285079956,
+      "learning_rate": 8.929174350050646e-06,
+      "loss": -30.4665,
+      "step": 37300
+    },
+    {
+      "epoch": 2.8728559341589106,
+      "grad_norm": 1.428084135055542,
+      "learning_rate": 8.669454328234164e-06,
+      "loss": -30.4665,
+      "step": 37350
+    },
+    {
+      "epoch": 2.876701792169833,
+      "grad_norm": 0.4759369492530823,
+      "learning_rate": 8.409734306417682e-06,
+      "loss": -30.4665,
+      "step": 37400
+    },
+    {
+      "epoch": 2.8805476501807554,
+      "grad_norm": 1.0323377847671509,
+      "learning_rate": 8.1500142846012e-06,
+      "loss": -30.4666,
+      "step": 37450
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "grad_norm": 0.9753648638725281,
+      "learning_rate": 7.890294262784718e-06,
+      "loss": -30.4666,
+      "step": 37500
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "eval_loss": -30.470531463623047,
+      "eval_runtime": 16.7944,
+      "eval_samples_per_second": 59.544,
+      "eval_steps_per_second": 14.886,
+      "step": 37500
     }
   ],
   "logging_steps": 50,