Training in progress, step 28000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35ce5e6c86a1bf47cdce58143c5b09c73002dd5d89b9322534b522adf2b979c2
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2b2a09b0c718d7a491a19203c596e4ee868ab1c484877d294e6c4faf6f30efb
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5105319d30175c31c325f622351d24750b6ebc93a4a760e15dcddafd219a41e3
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:84d5f993c46a18f90bdec40ac57cbb61c0044ca158da830a2a251cb1b9f73c26
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:537fd28e956b28024f32059bbc52f49d60f5e4fb3a227aae07af0b56eace7847
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f145355c23ee5fb538578cd9954c12d1f33dfb98ccfc124985339d68356ee942
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e5855dbe60c612d06e5ce5a68c9b6c059c395e1394e85fd59ba8464398cb7a8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a374ffed3d3d8a7f9634cdb9b7207d347f6957d04522010a4d50d73e4c623442
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7eb460d7eba992c8af886ac0898482ee899dab9ae84de674b2941e35c95d2bc1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:13f83252b2ae8a53cd4f408d431cb4cec02e9d65b9dadef7fdff56180c3d5cd3
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d3faad18edd2356e2cb54ce0b6a6c9de80399948e06a3d1f3780847487f93c5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:969919a5c5fc35784da996c8ca0a4cb297b59fb4c9aadbd1a769e70ab51007e7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 27500,
-  "best_metric": 1.0159448385238647,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-27500",
-  "epoch": 2.11522190600723,
   "eval_steps": 250,
-  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4738,6 +4738,92 @@
       "eval_samples_per_second": 56.49,
       "eval_steps_per_second": 14.123,
       "step": 27500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 28000,
+  "best_metric": 1.008616328239441,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-28000",
+  "epoch": 2.1536804861164525,
   "eval_steps": 250,
+  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.49,
       "eval_steps_per_second": 14.123,
       "step": 27500
+    },
+    {
+      "epoch": 2.1190677640181526,
+      "grad_norm": 0.9638277292251587,
+      "learning_rate": 5.9564189803391944e-05,
+      "loss": 0.9753,
+      "step": 27550
+    },
+    {
+      "epoch": 2.1229136220290745,
+      "grad_norm": 1.1322181224822998,
+      "learning_rate": 5.9304469781575464e-05,
+      "loss": 0.948,
+      "step": 27600
+    },
+    {
+      "epoch": 2.126759480039997,
+      "grad_norm": 1.144047737121582,
+      "learning_rate": 5.904474975975898e-05,
+      "loss": 1.009,
+      "step": 27650
+    },
+    {
+      "epoch": 2.1306053380509193,
+      "grad_norm": 2.713625431060791,
+      "learning_rate": 5.8785029737942496e-05,
+      "loss": 1.0069,
+      "step": 27700
+    },
+    {
+      "epoch": 2.1344511960618413,
+      "grad_norm": 1.1035822629928589,
+      "learning_rate": 5.852530971612602e-05,
+      "loss": 1.0013,
+      "step": 27750
+    },
+    {
+      "epoch": 2.1344511960618413,
+      "eval_loss": 1.0144418478012085,
+      "eval_runtime": 17.6881,
+      "eval_samples_per_second": 56.535,
+      "eval_steps_per_second": 14.134,
+      "step": 27750
+    },
+    {
+      "epoch": 2.1382970540727637,
+      "grad_norm": 1.2658100128173828,
+      "learning_rate": 5.826558969430954e-05,
+      "loss": 1.0185,
+      "step": 27800
+    },
+    {
+      "epoch": 2.1421429120836857,
+      "grad_norm": 0.9421238303184509,
+      "learning_rate": 5.800586967249305e-05,
+      "loss": 0.9892,
+      "step": 27850
+    },
+    {
+      "epoch": 2.145988770094608,
+      "grad_norm": 0.9409565925598145,
+      "learning_rate": 5.7746149650676575e-05,
+      "loss": 0.9985,
+      "step": 27900
+    },
+    {
+      "epoch": 2.1498346281055305,
+      "grad_norm": 1.445890188217163,
+      "learning_rate": 5.7486429628860094e-05,
+      "loss": 1.0147,
+      "step": 27950
+    },
+    {
+      "epoch": 2.1536804861164525,
+      "grad_norm": 1.109020709991455,
+      "learning_rate": 5.722670960704361e-05,
+      "loss": 1.0093,
+      "step": 28000
+    },
+    {
+      "epoch": 2.1536804861164525,
+      "eval_loss": 1.008616328239441,
+      "eval_runtime": 17.6489,
+      "eval_samples_per_second": 56.661,
+      "eval_steps_per_second": 14.165,
+      "step": 28000
     }
   ],
   "logging_steps": 50,