Training in progress, step 15500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9310d7742dd19e663f6402741ea20db935d3b2e0e01a71d5a768ac7db25bc72
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f1ed52cf80a5ab8d5ed12c9555137201579cc86f9a2f068ecfc94b91627d37
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c1a1611c8e46f685348b5dfe48ae762df7c9c3b98434f8da77fcc5f9f81a751
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5311da3aa8361f2e32c9e1dadd3f99fb776577e3edbc936e8d5e4a247f82b48
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f525658a7b4e5ff255750bc03647522ca336d6f40ea836aaa028d9a5bebc0152
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac8a732d897ca3b87406efba9af34062b6403d9fcd06247903138f1a20ce830
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c298ef220b2440e2c8688c2918aba70637e9e1c8a2951767772c4969343135c8
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e443e4b8c749db54f7826bd4573803e0f05009235443f881fa9932376e1aba8
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:453f146988a415e18f9bddb29836fc724515457272291d8aed123845d69e5c29
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce992341f57d419e4ec2c7637893018b15690261bc216bb5e0545131a4a5ab1d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73ddc28e63ea8c6b2f70c524e6eba5501abe22b3d62b8aa4437458f65de50c75
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b94bf7f68d57ae943a99758bd0c736315f81c408fbb84a10b3ea5a5a1956ed5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13750,
-  "best_metric": 1.5073590278625488,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-13000",
-  "epoch": 1.153757403276671,
   "eval_steps": 250,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2588,6 +2588,92 @@
       "eval_samples_per_second": 55.77,
       "eval_steps_per_second": 13.943,
       "step": 15000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 15500,
+  "best_metric": 1.5013692378997803,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
+  "epoch": 1.1922159833858934,
   "eval_steps": 250,
+  "global_step": 15500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.77,
       "eval_steps_per_second": 13.943,
       "step": 15000
+    },
+    {
+      "epoch": 1.1576032612875933,
+      "grad_norm": 1.5970553159713745,
+      "learning_rate": 0.0001244734176557671,
+      "loss": 1.4515,
+      "step": 15050
+    },
+    {
+      "epoch": 1.1614491192985155,
+      "grad_norm": 1.0201988220214844,
+      "learning_rate": 0.0001242136976339506,
+      "loss": 1.5431,
+      "step": 15100
+    },
+    {
+      "epoch": 1.1652949773094377,
+      "grad_norm": 0.9830596446990967,
+      "learning_rate": 0.00012395397761213412,
+      "loss": 1.4581,
+      "step": 15150
+    },
+    {
+      "epoch": 1.16914083532036,
+      "grad_norm": 2.3363943099975586,
+      "learning_rate": 0.00012369425759031766,
+      "loss": 1.5147,
+      "step": 15200
+    },
+    {
+      "epoch": 1.1729866933312822,
+      "grad_norm": 1.8213731050491333,
+      "learning_rate": 0.00012343453756850117,
+      "loss": 1.5497,
+      "step": 15250
+    },
+    {
+      "epoch": 1.1729866933312822,
+      "eval_loss": 1.5053696632385254,
+      "eval_runtime": 17.7358,
+      "eval_samples_per_second": 56.383,
+      "eval_steps_per_second": 14.096,
+      "step": 15250
+    },
+    {
+      "epoch": 1.1768325513422044,
+      "grad_norm": 1.1468195915222168,
+      "learning_rate": 0.00012317481754668468,
+      "loss": 1.4292,
+      "step": 15300
+    },
+    {
+      "epoch": 1.1806784093531266,
+      "grad_norm": 1.2235878705978394,
+      "learning_rate": 0.0001229150975248682,
+      "loss": 1.4428,
+      "step": 15350
+    },
+    {
+      "epoch": 1.1845242673640488,
+      "grad_norm": 1.5518691539764404,
+      "learning_rate": 0.0001226553775030517,
+      "loss": 1.4889,
+      "step": 15400
+    },
+    {
+      "epoch": 1.1883701253749712,
+      "grad_norm": 1.217755913734436,
+      "learning_rate": 0.00012239565748123522,
+      "loss": 1.4841,
+      "step": 15450
+    },
+    {
+      "epoch": 1.1922159833858934,
+      "grad_norm": 1.6093647480010986,
+      "learning_rate": 0.00012213593745941876,
+      "loss": 1.5461,
+      "step": 15500
+    },
+    {
+      "epoch": 1.1922159833858934,
+      "eval_loss": 1.5013692378997803,
+      "eval_runtime": 18.0052,
+      "eval_samples_per_second": 55.539,
+      "eval_steps_per_second": 13.885,
+      "step": 15500
     }
   ],
   "logging_steps": 50,