Training in progress, step 12000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81182cbfca2b2395720661b881f3a21449a5b099c10503d0b19c367e80d8f634
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:f905e1780ead207018fcc63d3eee314969b429ab6c3fb1b4b7d55b82dd5e705f
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42c56c87a7984be3fc3f577b8760da3264a2bddf0025d9fc0c798ec2f6f0c4bb
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0543052e8eb8d6818c70e093e941fc4b27e91541fab33a19886d162002c431a7
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb6d655c1a0f6279eab1fa2c9b1b8c6ef0b97091c160cac4c8910b84c16c8bc7
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a12af399801c91cf8dd422d90b7d653b67f6015e364538d005d0a7d95d3b977
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ce35713c6cfde8b254092a62a162b21058e7d89b73dff276ea2ee9e65249418
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:205a7550a4c055924e0126c3501b4b656ca55ae3243c46218f86d29fc2fb9758
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9382b68752d27219353a2e7f7009fa6cadf558aef72af7a459bff228130ca931
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a647bb95d822173d4ee9be8d10c936b89d3eece1d84247711563ab2d41513f54
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbe15cb17838928a2afef6da4a5b2daf57c7ac8090013e6c3fbabf17649bf066
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5752b9d4c614021fa8b8f77fd50a0a39abf6d6bd5fececfd9db71cacad56f038
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 11000,
-  "best_metric": 4.352676868438721,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-11000",
-  "epoch": 0.8845473425121144,
   "eval_steps": 250,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1986,6 +1986,92 @@
       "eval_samples_per_second": 53.887,
       "eval_steps_per_second": 13.472,
       "step": 11500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 12000,
+  "best_metric": 1.5273067951202393,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-12000",
+  "epoch": 0.9230059226213368,
   "eval_steps": 250,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.887,
       "eval_steps_per_second": 13.472,
       "step": 11500
+    },
+    {
+      "epoch": 0.8883932005230367,
+      "grad_norm": 4.711415767669678,
+      "learning_rate": 0.00014265381918292082,
+      "loss": 4.5701,
+      "step": 11550
+    },
+    {
+      "epoch": 0.8922390585339589,
+      "grad_norm": 3.1737523078918457,
+      "learning_rate": 0.00014239409916110433,
+      "loss": 4.4522,
+      "step": 11600
+    },
+    {
+      "epoch": 0.8960849165448812,
+      "grad_norm": 4.876018047332764,
+      "learning_rate": 0.00014213437913928787,
+      "loss": 4.3937,
+      "step": 11650
+    },
+    {
+      "epoch": 0.8999307745558034,
+      "grad_norm": 7.117967128753662,
+      "learning_rate": 0.00014187465911747138,
+      "loss": 4.3585,
+      "step": 11700
+    },
+    {
+      "epoch": 0.9037766325667257,
+      "grad_norm": 2.587160587310791,
+      "learning_rate": 0.0001416149390956549,
+      "loss": 1.5054,
+      "step": 11750
+    },
+    {
+      "epoch": 0.9037766325667257,
+      "eval_loss": 1.5468424558639526,
+      "eval_runtime": 17.9563,
+      "eval_samples_per_second": 55.691,
+      "eval_steps_per_second": 13.923,
+      "step": 11750
+    },
+    {
+      "epoch": 0.9076224905776479,
+      "grad_norm": 1.4935526847839355,
+      "learning_rate": 0.0001413552190738384,
+      "loss": 1.5719,
+      "step": 11800
+    },
+    {
+      "epoch": 0.9114683485885701,
+      "grad_norm": 1.4879201650619507,
+      "learning_rate": 0.00014109549905202192,
+      "loss": 1.4862,
+      "step": 11850
+    },
+    {
+      "epoch": 0.9153142065994924,
+      "grad_norm": 1.7936193943023682,
+      "learning_rate": 0.00014083577903020543,
+      "loss": 1.488,
+      "step": 11900
+    },
+    {
+      "epoch": 0.9191600646104146,
+      "grad_norm": 2.14953875541687,
+      "learning_rate": 0.00014057605900838897,
+      "loss": 1.5383,
+      "step": 11950
+    },
+    {
+      "epoch": 0.9230059226213368,
+      "grad_norm": 1.5575013160705566,
+      "learning_rate": 0.00014031633898657249,
+      "loss": 1.4814,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9230059226213368,
+      "eval_loss": 1.5273067951202393,
+      "eval_runtime": 17.7259,
+      "eval_samples_per_second": 56.414,
+      "eval_steps_per_second": 14.104,
+      "step": 12000
     }
   ],
   "logging_steps": 50,