Training in progress, step 38000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c27b235ffd7eb3533febc9af0f60470e3dba0b8e45360272535091fdccd177b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc9e082dc3b2b599ece245c68d836aa3280cd4e7a9b0918ad403250af895d5e3
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:696e56b33a026fc5d8957bdce7458fb9a6f7ad74969dc7cd1a68cbc7a0b070a7
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:c350b485739b4fddb9d5148423e5dfbced50fc251b92973c875bcddb4d66a775
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31f016b3f65efa39acc365f2cd200e250e466d276146e2b7b6697bb3bf4c7a78
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:54a8acb2b80e4297ad7cc3210bf7b7be72618237e5040794a64b58c69faec7fc
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97f5694df4cc55cfb23211b8e8f8f54247ffb944ba00f7e779e21697183c2f1f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2c0cded846d640f3719120429980641a6206dc92844fb42e8f946ff3bea6b2e
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cc58fd6b30bc41899d1238111aee5cdb3d8eeebbfe25f934de223f53728d54d
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fc19191502cd55e651632979b36f722e8851e564a429a904a6573212b31486c
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23ce717bb1ff7d19ce8b39673c5e006d14b3fec124190d834c88a63ab05da6d0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:541cb6dea9c80e2359e5134078f161ec83a5de3af8e29b3e9b6b880e5dd9058f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 37500,
-  "best_metric": -30.470531463623047,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-37500",
-  "epoch": 2.8843935081916774,
   "eval_steps": 250,
-  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6458,6 +6458,92 @@
       "eval_samples_per_second": 59.544,
       "eval_steps_per_second": 14.886,
       "step": 37500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 37750,
+  "best_metric": -30.47093391418457,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-37500",
+  "epoch": 2.9228520883008997,
   "eval_steps": 250,
+  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.544,
       "eval_steps_per_second": 14.886,
       "step": 37500
+    },
+    {
+      "epoch": 2.8882393662026,
+      "grad_norm": 0.6514129042625427,
+      "learning_rate": 7.630574240968237e-06,
+      "loss": -30.4666,
+      "step": 37550
+    },
+    {
+      "epoch": 2.892085224213522,
+      "grad_norm": 1.0104998350143433,
+      "learning_rate": 7.3708542191517545e-06,
+      "loss": -30.4667,
+      "step": 37600
+    },
+    {
+      "epoch": 2.895931082224444,
+      "grad_norm": 0.713027834892273,
+      "learning_rate": 7.111134197335273e-06,
+      "loss": -30.4665,
+      "step": 37650
+    },
+    {
+      "epoch": 2.8997769402353666,
+      "grad_norm": 0.6001731157302856,
+      "learning_rate": 6.851414175518792e-06,
+      "loss": -30.4666,
+      "step": 37700
+    },
+    {
+      "epoch": 2.903622798246289,
+      "grad_norm": 0.6344665288925171,
+      "learning_rate": 6.591694153702309e-06,
+      "loss": -30.4664,
+      "step": 37750
+    },
+    {
+      "epoch": 2.903622798246289,
+      "eval_loss": -30.47093391418457,
+      "eval_runtime": 16.9622,
+      "eval_samples_per_second": 58.955,
+      "eval_steps_per_second": 14.739,
+      "step": 37750
+    },
+    {
+      "epoch": 2.907468656257211,
+      "grad_norm": 0.5279808640480042,
+      "learning_rate": 6.331974131885828e-06,
+      "loss": -30.4667,
+      "step": 37800
+    },
+    {
+      "epoch": 2.9113145142681334,
+      "grad_norm": 0.9036094546318054,
+      "learning_rate": 6.072254110069346e-06,
+      "loss": -30.4667,
+      "step": 37850
+    },
+    {
+      "epoch": 2.9151603722790553,
+      "grad_norm": 0.601686954498291,
+      "learning_rate": 5.812534088252864e-06,
+      "loss": -30.4668,
+      "step": 37900
+    },
+    {
+      "epoch": 2.9190062302899777,
+      "grad_norm": 1.0191963911056519,
+      "learning_rate": 5.552814066436382e-06,
+      "loss": -30.4667,
+      "step": 37950
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "grad_norm": 0.9260501265525818,
+      "learning_rate": 5.2930940446198996e-06,
+      "loss": -30.4667,
+      "step": 38000
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "eval_loss": -30.47071075439453,
+      "eval_runtime": 16.8261,
+      "eval_samples_per_second": 59.431,
+      "eval_steps_per_second": 14.858,
+      "step": 38000
     }
   ],
   "logging_steps": 50,