Training in progress, step 5500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0c1e03b37e306af29004a56bbc2e3cfe78ac4558d064ded4954032563a506c0
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce807f113eae8af3f76aad00110eac4aaa67725db83293608e360d0ae6f2138c
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d76b1ed26fb441fb296b2bc10e92b9546db047308ea5940e5ff2ef749dcfb42
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b62d615ea1686f1839d2072736549e7fb167c1df54c146af3bd0e3c76f28b705
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a263bfee7c334e6fc36b6c4750e79a70eeb042f841889c6eb0ea501e4fa6ac73
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:452f9d1449e365d91136837164af087a289325b1bf94b381d6eeb9d18ffa0513
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bbcc820499d7de99bfade4a29f6e9516d1e9cb1c8de79befcf1f0d7f2a4da15
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f428dc4c0936653e8741f49c8b481e2cc2f0d2a1ce2182ef1df7e775a7d4db5
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7200a3e7cdec9309704535acc69d439ad04e127a63c3c13c5ca0a94f0236ea31
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b342bb583b996f802c3b66f99264c907dce5eb33ed829269a76eaa3a6c0e850c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 5000,
   "best_metric": 4.414160251617432,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-5000",
-  "epoch": 0.3845858010922237,
   "eval_steps": 250,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -868,6 +868,92 @@
       "eval_samples_per_second": 53.604,
       "eval_steps_per_second": 13.401,
       "step": 5000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 5000,
   "best_metric": 4.414160251617432,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-5000",
+  "epoch": 0.42304438120144605,
   "eval_steps": 250,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.604,
       "eval_steps_per_second": 13.401,
       "step": 5000
+    },
+    {
+      "epoch": 0.3884316591031459,
+      "grad_norm": 2.658412456512451,
+      "learning_rate": 0.00011455387669570971,
+      "loss": 4.5453,
+      "step": 5050
+    },
+    {
+      "epoch": 0.39227751711406816,
+      "grad_norm": 2.231886148452759,
+      "learning_rate": 0.00011429653321569059,
+      "loss": 4.5524,
+      "step": 5100
+    },
+    {
+      "epoch": 0.3961233751249904,
+      "grad_norm": 4.202503204345703,
+      "learning_rate": 0.00011403918973567147,
+      "loss": 4.5274,
+      "step": 5150
+    },
+    {
+      "epoch": 0.39996923313591265,
+      "grad_norm": 2.8525800704956055,
+      "learning_rate": 0.00011378184625565236,
+      "loss": 4.5095,
+      "step": 5200
+    },
+    {
+      "epoch": 0.40381509114683484,
+      "grad_norm": 3.2517142295837402,
+      "learning_rate": 0.00011352964964523362,
+      "loss": 4.5043,
+      "step": 5250
+    },
+    {
+      "epoch": 0.40381509114683484,
+      "eval_loss": 4.595612525939941,
+      "eval_runtime": 18.9024,
+      "eval_samples_per_second": 52.903,
+      "eval_steps_per_second": 13.226,
+      "step": 5250
+    },
+    {
+      "epoch": 0.4076609491577571,
+      "grad_norm": 5.091184616088867,
+      "learning_rate": 0.00011327745303481488,
+      "loss": 4.4768,
+      "step": 5300
+    },
+    {
+      "epoch": 0.4115068071686793,
+      "grad_norm": 6.631587028503418,
+      "learning_rate": 0.00011302010955479578,
+      "loss": 4.5572,
+      "step": 5350
+    },
+    {
+      "epoch": 0.41535266517960157,
+      "grad_norm": 3.529118299484253,
+      "learning_rate": 0.00011276276607477666,
+      "loss": 4.6685,
+      "step": 5400
+    },
+    {
+      "epoch": 0.4191985231905238,
+      "grad_norm": 3.1017537117004395,
+      "learning_rate": 0.00011250542259475754,
+      "loss": 4.4271,
+      "step": 5450
+    },
+    {
+      "epoch": 0.42304438120144605,
+      "grad_norm": 3.930664300918579,
+      "learning_rate": 0.00011224807911473842,
+      "loss": 4.5501,
+      "step": 5500
+    },
+    {
+      "epoch": 0.42304438120144605,
+      "eval_loss": 4.486245632171631,
+      "eval_runtime": 18.9209,
+      "eval_samples_per_second": 52.851,
+      "eval_steps_per_second": 13.213,
+      "step": 5500
     }
   ],
   "logging_steps": 50,