Training in progress, step 2000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b232b0278243d25903d8789b4dba3a6c48116f80cf44f29b224b3a9213825f
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed248223fb076f4557238ee5eec9add808ee83dacf213c5b42e548a3180d84ba
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f87fd12b6e3592e8e2a065da27b2e13a73a88e79824ecd70f4ced521e1d64d89
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca187211ec5ca22e22494af8fae9ec9214346dc466486151b4b1df2b8f4958fe
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42de46b2e4c5179833d46fe28b80f469c3d40255a80ec3a104ef7ad1fd3d8210
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:2512ba1bd332fd1303d75224b66504a865cf77c5c151bdcdfcda52c23dbe2db6
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34bac16fbc99181cf3c30f05bcb7e648ad2c92eef3f334c8cbe294300c1d92e7
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fdbdc59fd9e02ea3e69d676110893ccd87d22af41e77bc0d26c87371fa56871
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c205be8a1beb83fa60ead2e2dc0acbbf0de06ae533775758f9d9f2396e1a4003
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e942a77a12aac95a1f43f3b73ecd979987695991d41d93e1b6557c90b404597e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1500,
-  "best_metric": 4.696172714233398,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-1500",
-  "epoch": 0.1153757403276671,
   "eval_steps": 250,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -266,6 +266,92 @@
       "eval_samples_per_second": 52.993,
       "eval_steps_per_second": 13.248,
       "step": 1500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 2000,
+  "best_metric": 4.620576858520508,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-2000",
+  "epoch": 0.15383432043688947,
   "eval_steps": 250,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.993,
       "eval_steps_per_second": 13.248,
       "step": 1500
+    },
+    {
+      "epoch": 0.11922159833858934,
+      "grad_norm": 3.801748752593994,
+      "learning_rate": 0.0001325679202970479,
+      "loss": 4.7912,
+      "step": 1550
+    },
+    {
+      "epoch": 0.12306745634951158,
+      "grad_norm": 8.367344856262207,
+      "learning_rate": 0.00013231057681702878,
+      "loss": 4.7281,
+      "step": 1600
+    },
+    {
+      "epoch": 0.12691331436043382,
+      "grad_norm": 4.299734592437744,
+      "learning_rate": 0.00013205323333700966,
+      "loss": 4.7263,
+      "step": 1650
+    },
+    {
+      "epoch": 0.13075917237135604,
+      "grad_norm": 6.152933597564697,
+      "learning_rate": 0.00013179588985699054,
+      "loss": 4.8519,
+      "step": 1700
+    },
+    {
+      "epoch": 0.13460503038227828,
+      "grad_norm": 4.300355434417725,
+      "learning_rate": 0.00013153854637697142,
+      "loss": 4.8359,
+      "step": 1750
+    },
+    {
+      "epoch": 0.13460503038227828,
+      "eval_loss": 4.635708808898926,
+      "eval_runtime": 18.5455,
+      "eval_samples_per_second": 53.922,
+      "eval_steps_per_second": 13.48,
+      "step": 1750
+    },
+    {
+      "epoch": 0.13845088839320052,
+      "grad_norm": 2.1330080032348633,
+      "learning_rate": 0.0001312812028969523,
+      "loss": 4.807,
+      "step": 1800
+    },
+    {
+      "epoch": 0.14229674640412276,
+      "grad_norm": 4.667717456817627,
+      "learning_rate": 0.00013102385941693318,
+      "loss": 4.6633,
+      "step": 1850
+    },
+    {
+      "epoch": 0.146142604415045,
+      "grad_norm": 6.904145240783691,
+      "learning_rate": 0.00013076651593691408,
+      "loss": 4.7899,
+      "step": 1900
+    },
+    {
+      "epoch": 0.14998846242596722,
+      "grad_norm": 2.930926561355591,
+      "learning_rate": 0.00013050917245689496,
+      "loss": 4.6692,
+      "step": 1950
+    },
+    {
+      "epoch": 0.15383432043688947,
+      "grad_norm": 3.6246345043182373,
+      "learning_rate": 0.00013025182897687584,
+      "loss": 4.781,
+      "step": 2000
+    },
+    {
+      "epoch": 0.15383432043688947,
+      "eval_loss": 4.620576858520508,
+      "eval_runtime": 18.7692,
+      "eval_samples_per_second": 53.279,
+      "eval_steps_per_second": 13.32,
+      "step": 2000
     }
   ],
   "logging_steps": 50,