Training in progress, step 27500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c71cb6762a3f2359c9b24c07c0f2c18222a0855ef4122d25dd24f1be773077c
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:35ce5e6c86a1bf47cdce58143c5b09c73002dd5d89b9322534b522adf2b979c2
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7562e2e11d39589f1d1677624c9cbfb42e6035b41d3ee891b0f53a0cc6bfe79
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:5105319d30175c31c325f622351d24750b6ebc93a4a760e15dcddafd219a41e3
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc1dfd01f40336797b539a0d0ca763264a6fc70cdf83f8431ae379e9a2d8dff9
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:537fd28e956b28024f32059bbc52f49d60f5e4fb3a227aae07af0b56eace7847
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7cb9cecde71619f5455094db9dbc10b01ced14b7fff166fcfd1f46df6e480f1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e5855dbe60c612d06e5ce5a68c9b6c059c395e1394e85fd59ba8464398cb7a8
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a94b30a1039d003ca39bb6fcc94430e37b0c6c69456a996151d312d106dd61
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:7eb460d7eba992c8af886ac0898482ee899dab9ae84de674b2941e35c95d2bc1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1412b21a67b3e14f57e3f3d27ac855c98641b3c473e09eb37b8289635d633513
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d3faad18edd2356e2cb54ce0b6a6c9de80399948e06a3d1f3780847487f93c5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 24500,
-  "best_metric": 1.445096731185913,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
-  "epoch": 2.076763325898008,
   "eval_steps": 250,
-  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4652,6 +4652,92 @@
       "eval_samples_per_second": 55.662,
       "eval_steps_per_second": 13.915,
       "step": 27000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 27500,
+  "best_metric": 1.0159448385238647,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-27500",
+  "epoch": 2.11522190600723,
   "eval_steps": 250,
+  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.662,
       "eval_steps_per_second": 13.915,
       "step": 27000
+    },
+    {
+      "epoch": 2.0806091839089302,
+      "grad_norm": 0.9695401191711426,
+      "learning_rate": 6.216139002155676e-05,
+      "loss": 1.4943,
+      "step": 27050
+    },
+    {
+      "epoch": 2.084455041919852,
+      "grad_norm": 1.243717074394226,
+      "learning_rate": 6.190166999974029e-05,
+      "loss": 1.4199,
+      "step": 27100
+    },
+    {
+      "epoch": 2.0883008999307746,
+      "grad_norm": 1.6151024103164673,
+      "learning_rate": 6.16419499779238e-05,
+      "loss": 1.4248,
+      "step": 27150
+    },
+    {
+      "epoch": 2.0921467579416966,
+      "grad_norm": 1.7448607683181763,
+      "learning_rate": 6.138222995610731e-05,
+      "loss": 1.3944,
+      "step": 27200
+    },
+    {
+      "epoch": 2.095992615952619,
+      "grad_norm": 3.0997345447540283,
+      "learning_rate": 6.112250993429084e-05,
+      "loss": 1.4174,
+      "step": 27250
+    },
+    {
+      "epoch": 2.095992615952619,
+      "eval_loss": 1.4659229516983032,
+      "eval_runtime": 18.0653,
+      "eval_samples_per_second": 55.355,
+      "eval_steps_per_second": 13.839,
+      "step": 27250
+    },
+    {
+      "epoch": 2.0998384739635414,
+      "grad_norm": 1.637845754623413,
+      "learning_rate": 6.086278991247436e-05,
+      "loss": 1.446,
+      "step": 27300
+    },
+    {
+      "epoch": 2.1036843319744634,
+      "grad_norm": 1.4263664484024048,
+      "learning_rate": 6.060306989065787e-05,
+      "loss": 0.9793,
+      "step": 27350
+    },
+    {
+      "epoch": 2.1075301899853858,
+      "grad_norm": 0.8709418773651123,
+      "learning_rate": 6.034334986884139e-05,
+      "loss": 0.9715,
+      "step": 27400
+    },
+    {
+      "epoch": 2.111376047996308,
+      "grad_norm": 0.8483341336250305,
+      "learning_rate": 6.008362984702491e-05,
+      "loss": 0.9163,
+      "step": 27450
+    },
+    {
+      "epoch": 2.11522190600723,
+      "grad_norm": 2.070937156677246,
+      "learning_rate": 5.9823909825208425e-05,
+      "loss": 1.0047,
+      "step": 27500
+    },
+    {
+      "epoch": 2.11522190600723,
+      "eval_loss": 1.0159448385238647,
+      "eval_runtime": 17.7021,
+      "eval_samples_per_second": 56.49,
+      "eval_steps_per_second": 14.123,
+      "step": 27500
     }
   ],
   "logging_steps": 50,