Training in progress, step 17000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47aa7b6dff74362f082b035925e2a5f7cb54a6d412fcc30408f989b971b037c6
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:441effd53b237a6d55d25ad93a62aed9e9a9b704129f5cc8576e5b658221b597
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac0c8a0f8ae72f5f1c6ba696fc1b1a47bee4f015c1aa8caebecb7d165365a472
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d99045a76b65192b2e41aefcf5abebda18e67ecc70d381cfe9c7b19f1066bfd
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d28d5f3a49ada942ec355f276b33d6e4bff345075b872b6e2b651f5666a06f0a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a9d5359cc143881ecdb88768e105d086fd2336ed10ecf8c85dd03dc0e505da1
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac02e2eb311b0a2b3525f61fc41905e20d307e2a487c095f2b84052384c6ffa
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:5daa13f981d2fdcf2543f987afffb899e74fcea4fd93baa2e74fd8a3169ecb99
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb9a109782b96ee7b703894b485d97bae6299b8517060ebdc76bb5c7072fef6b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fd0711c5430aa1d8a873bb88a5b6bcc960ba760770a1807e688afccd4facc3e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 16250,
-  "best_metric": 1.4850120544433594,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-15500",
-  "epoch": 1.2691331436043383,
   "eval_steps": 250,
-  "global_step": 16500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2846,6 +2846,92 @@
       "eval_samples_per_second": 55.479,
       "eval_steps_per_second": 13.87,
       "step": 16500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 16750,
+  "best_metric": 1.4708431959152222,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-15500",
+  "epoch": 1.3075917237135606,
   "eval_steps": 250,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.479,
       "eval_steps_per_second": 13.87,
       "step": 16500
+    },
+    {
+      "epoch": 1.2729790016152602,
+      "grad_norm": 1.4080452919006348,
+      "learning_rate": 5.5390610639314724e-05,
+      "loss": 1.4667,
+      "step": 16550
+    },
+    {
+      "epoch": 1.2768248596261826,
+      "grad_norm": 1.6634443998336792,
+      "learning_rate": 5.513326715929561e-05,
+      "loss": 1.4619,
+      "step": 16600
+    },
+    {
+      "epoch": 1.2806707176371048,
+      "grad_norm": 2.0469400882720947,
+      "learning_rate": 5.487592367927649e-05,
+      "loss": 1.4105,
+      "step": 16650
+    },
+    {
+      "epoch": 1.284516575648027,
+      "grad_norm": 1.5735753774642944,
+      "learning_rate": 5.461858019925738e-05,
+      "loss": 1.4002,
+      "step": 16700
+    },
+    {
+      "epoch": 1.2883624336589494,
+      "grad_norm": 1.43183434009552,
+      "learning_rate": 5.436123671923826e-05,
+      "loss": 1.4586,
+      "step": 16750
+    },
+    {
+      "epoch": 1.2883624336589494,
+      "eval_loss": 1.4708431959152222,
+      "eval_runtime": 18.2152,
+      "eval_samples_per_second": 54.899,
+      "eval_steps_per_second": 13.725,
+      "step": 16750
+    },
+    {
+      "epoch": 1.2922082916698716,
+      "grad_norm": 1.6342015266418457,
+      "learning_rate": 5.4103893239219136e-05,
+      "loss": 1.4113,
+      "step": 16800
+    },
+    {
+      "epoch": 1.2960541496807938,
+      "grad_norm": 3.80155873298645,
+      "learning_rate": 5.384654975920002e-05,
+      "loss": 1.4793,
+      "step": 16850
+    },
+    {
+      "epoch": 1.299900007691716,
+      "grad_norm": 1.4240097999572754,
+      "learning_rate": 5.358920627918091e-05,
+      "loss": 1.4072,
+      "step": 16900
+    },
+    {
+      "epoch": 1.3037458657026382,
+      "grad_norm": 1.4548074007034302,
+      "learning_rate": 5.333186279916179e-05,
+      "loss": 1.4275,
+      "step": 16950
+    },
+    {
+      "epoch": 1.3075917237135606,
+      "grad_norm": 1.7287901639938354,
+      "learning_rate": 5.3074519319142675e-05,
+      "loss": 1.4741,
+      "step": 17000
+    },
+    {
+      "epoch": 1.3075917237135606,
+      "eval_loss": 1.4836150407791138,
+      "eval_runtime": 18.0219,
+      "eval_samples_per_second": 55.488,
+      "eval_steps_per_second": 13.872,
+      "step": 17000
     }
   ],
   "logging_steps": 50,