Training in progress, step 5500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:190f0428e79c75fea98ae401d8541afc938c837a01a15c4bff27851efd1dd5ff
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:97249c47c6b32ef65b151737e7f96c260e5a23f9fbe742a453b5f4d81d690726
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bc6fe79754f0206b6654ffb1ff34bd91c57fda8a689c690f85d10e6dc833bb2
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4be1866ad2b89ce10f9d86783f55773d8feaaccbe73932e4a09243f667cbcc5
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c76afc96f497ed26d04fa930deb390dd280c8858f2593b0b831d0095f3a4f7e6
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:62aa10d649cc73207a70cc479a1f297dd3d4ee8f4046bf419864ec2fcc09094e
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a263bfee7c334e6fc36b6c4750e79a70eeb042f841889c6eb0ea501e4fa6ac73
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:452f9d1449e365d91136837164af087a289325b1bf94b381d6eeb9d18ffa0513
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f5e01d0dbe696c7f72fcba4635ddf54e7178bc606b00e2f2f7ba88d1189fa69
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:91bbcbbac469a768b1f8fb700c511addacfb7e81974f1cc808de5a03588fc9f9
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c41e45efc3657786e1c23c51c4aebb48328108f6732539bee7a77cf7b55107d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66663104f3ba703edc4ec090a0702d7a9699150cb3c08b7ab9b0c3768767d04b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
-  "epoch": 0.3845858010922237,
   "eval_steps": 250,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -868,6 +868,92 @@
       "eval_samples_per_second": 53.614,
       "eval_steps_per_second": 13.404,
       "step": 5000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 5000,
   "best_metric": 4.465761661529541,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-5000",
+  "epoch": 0.42304438120144605,
   "eval_steps": 250,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.614,
       "eval_steps_per_second": 13.404,
       "step": 5000
+    },
+    {
+      "epoch": 0.3884316591031459,
+      "grad_norm": 3.0376453399658203,
+      "learning_rate": 0.00017640703321819082,
+      "loss": 4.574,
+      "step": 5050
+    },
+    {
+      "epoch": 0.39227751711406816,
+      "grad_norm": 2.6457693576812744,
+      "learning_rate": 0.00017614731319637433,
+      "loss": 4.5782,
+      "step": 5100
+    },
+    {
+      "epoch": 0.3961233751249904,
+      "grad_norm": 4.438416957855225,
+      "learning_rate": 0.00017588759317455782,
+      "loss": 4.5586,
+      "step": 5150
+    },
+    {
+      "epoch": 0.39996923313591265,
+      "grad_norm": 5.325882911682129,
+      "learning_rate": 0.00017562787315274136,
+      "loss": 4.5136,
+      "step": 5200
+    },
+    {
+      "epoch": 0.40381509114683484,
+      "grad_norm": 1.816029667854309,
+      "learning_rate": 0.00017536815313092487,
+      "loss": 4.4819,
+      "step": 5250
+    },
+    {
+      "epoch": 0.40381509114683484,
+      "eval_loss": 4.561609268188477,
+      "eval_runtime": 18.5623,
+      "eval_samples_per_second": 53.873,
+      "eval_steps_per_second": 13.468,
+      "step": 5250
+    },
+    {
+      "epoch": 0.4076609491577571,
+      "grad_norm": 4.011863708496094,
+      "learning_rate": 0.00017510843310910838,
+      "loss": 4.4284,
+      "step": 5300
+    },
+    {
+      "epoch": 0.4115068071686793,
+      "grad_norm": 10.169037818908691,
+      "learning_rate": 0.00017484871308729192,
+      "loss": 4.5414,
+      "step": 5350
+    },
+    {
+      "epoch": 0.41535266517960157,
+      "grad_norm": 3.9185502529144287,
+      "learning_rate": 0.00017458899306547544,
+      "loss": 4.6659,
+      "step": 5400
+    },
+    {
+      "epoch": 0.4191985231905238,
+      "grad_norm": 2.873530864715576,
+      "learning_rate": 0.00017432927304365895,
+      "loss": 4.4482,
+      "step": 5450
+    },
+    {
+      "epoch": 0.42304438120144605,
+      "grad_norm": 4.379590034484863,
+      "learning_rate": 0.00017406955302184246,
+      "loss": 4.5501,
+      "step": 5500
+    },
+    {
+      "epoch": 0.42304438120144605,
+      "eval_loss": 4.513929843902588,
+      "eval_runtime": 18.6196,
+      "eval_samples_per_second": 53.707,
+      "eval_steps_per_second": 13.427,
+      "step": 5500
     }
   ],
   "logging_steps": 50,