Training in progress, step 17500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b80b3583e2afb611f4c9adf5dda97e41fa3abaeec3239ac74a43ddde70a05578
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:78d2977f0197deae844fb8fa4ba1483d26d8ab4a842337c308c5805e2d4b9291
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfba693cf1d282bbea5c304bdd309307768a9ce459d448905954c71c856485be
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b3283c3aaea4f1a12c8a11e653a36fa924634ce08452daace823d8327ea96f
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba8347dc980899d1fbf4c0d68fa8a8cf6d3395e6ddd6aee4b5d0bea2791716a0
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aaf80cd43f46651a9c4aa03f28756212e23d71139e6fe0dca4ad9952d5a2268
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a9d5359cc143881ecdb88768e105d086fd2336ed10ecf8c85dd03dc0e505da1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6f63d896b1e09539b72ac15eabafd681bf824376794bc90d0981fb00940917
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3333c3c82f9e4ec8ba5829fe0ea7dc977fdffe09f41702806e9515db920536e
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:83c670602c4fdb95d34df084cca714b1e4115a72825bd5c70e64c19d3a998917
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14c33e4d9235be55afaa758d537d857af11e671e33d9253fad9c2c79b3373700
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:abfae05460636119aec0a7a8d55ec3326712e8ea80bb468cb104d4e03da4b28b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 16750,
   "best_metric": 1.4798808097839355,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
-  "epoch": 1.3075917237135606,
   "eval_steps": 250,
-  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2932,6 +2932,92 @@
       "eval_samples_per_second": 55.941,
       "eval_steps_per_second": 13.985,
       "step": 17000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 16750,
   "best_metric": 1.4798808097839355,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
+  "epoch": 1.346050303822783,
   "eval_steps": 250,
+  "global_step": 17500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.941,
       "eval_steps_per_second": 13.985,
       "step": 17000
+    },
+    {
+      "epoch": 1.3114375817244828,
+      "grad_norm": 1.6637665033340454,
+      "learning_rate": 0.00011408981118354414,
+      "loss": 1.5071,
+      "step": 17050
+    },
+    {
+      "epoch": 1.315283439735405,
+      "grad_norm": 2.0815582275390625,
+      "learning_rate": 0.00011383009116172768,
+      "loss": 1.4606,
+      "step": 17100
+    },
+    {
+      "epoch": 1.3191292977463271,
+      "grad_norm": 1.6492595672607422,
+      "learning_rate": 0.00011357037113991117,
+      "loss": 1.4408,
+      "step": 17150
+    },
+    {
+      "epoch": 1.3229751557572493,
+      "grad_norm": 0.8617509603500366,
+      "learning_rate": 0.00011331065111809469,
+      "loss": 1.497,
+      "step": 17200
+    },
+    {
+      "epoch": 1.3268210137681717,
+      "grad_norm": 1.6395294666290283,
+      "learning_rate": 0.00011305093109627823,
+      "loss": 1.4774,
+      "step": 17250
+    },
+    {
+      "epoch": 1.3268210137681717,
+      "eval_loss": 1.4835026264190674,
+      "eval_runtime": 18.0136,
+      "eval_samples_per_second": 55.514,
+      "eval_steps_per_second": 13.878,
+      "step": 17250
+    },
+    {
+      "epoch": 1.330666871779094,
+      "grad_norm": 2.7765560150146484,
+      "learning_rate": 0.00011279121107446174,
+      "loss": 1.4864,
+      "step": 17300
+    },
+    {
+      "epoch": 1.3345127297900161,
+      "grad_norm": 1.2104064226150513,
+      "learning_rate": 0.00011253149105264524,
+      "loss": 1.4075,
+      "step": 17350
+    },
+    {
+      "epoch": 1.3383585878009385,
+      "grad_norm": 1.6772801876068115,
+      "learning_rate": 0.00011227177103082878,
+      "loss": 1.4629,
+      "step": 17400
+    },
+    {
+      "epoch": 1.3422044458118605,
+      "grad_norm": 2.254371404647827,
+      "learning_rate": 0.00011201205100901229,
+      "loss": 1.4447,
+      "step": 17450
+    },
+    {
+      "epoch": 1.346050303822783,
+      "grad_norm": 2.2015669345855713,
+      "learning_rate": 0.00011175233098719582,
+      "loss": 1.4664,
+      "step": 17500
+    },
+    {
+      "epoch": 1.346050303822783,
+      "eval_loss": 1.496685266494751,
+      "eval_runtime": 17.7963,
+      "eval_samples_per_second": 56.191,
+      "eval_steps_per_second": 14.048,
+      "step": 17500
     }
   ],
   "logging_steps": 50,