Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4eb3a768f899ce9ce0631c58f809010c9c777e340003d975f6a1973ee4faba9
 size 1482788592

 version https://git-lfs.github.com/spec/v1
+oid sha256:94188bdc9e08dbb6eac6a0507320b0c907fb915cfa7001c5f92af6578ad90e47
 size 1482788592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d74dbeaa57407dc86512e5460fd84bfde29373f8895a653a470b4d9faeb9dbab
 size 2897966842

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcdf704d4a8495afba1bae183db657000ffb8f2ac49ae7b81fb67acdebdac75e
 size 2897966842

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dc9adcef27fb98366cd75be28cfa4b8a34abd675a94257bf37bd35ce6d381d9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7c85ac926ab9f43b148938a210afdb9bfb0e214997d909b11c6243231f842eb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:931d38342b692c160fcb90f4d9acb8e6f6634f499984cdd5b99b0563194d400a
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:716d7ef0d2def98440e32b2cba336f73e613b85c0427aef8f0c8a6789d61bd46
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.581129789352417,
-  "best_model_checkpoint": "./output/checkpoint-4500",
-  "epoch": 0.12089854921740939,
   "eval_steps": 150,
-  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3510,6 +3510,119 @@
       "eval_samples_per_second": 11.093,
       "eval_steps_per_second": 11.093,
       "step": 4650
     }
   ],
   "logging_steps": 10,
@@ -3529,7 +3642,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.365746439287603e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.580827534198761,
+  "best_model_checkpoint": "./output/checkpoint-4800",
+  "epoch": 0.12479850241797098,
   "eval_steps": 150,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.093,
       "eval_steps_per_second": 11.093,
       "step": 4650
+    },
+    {
+      "epoch": 0.12115854609744683,
+      "grad_norm": 4.750567436218262,
+      "learning_rate": 2.645879041572891e-07,
+      "loss": 0.4758,
+      "step": 4660
+    },
+    {
+      "epoch": 0.12141854297748426,
+      "grad_norm": 9.726584434509277,
+      "learning_rate": 2.4931004862810295e-07,
+      "loss": 0.475,
+      "step": 4670
+    },
+    {
+      "epoch": 0.12167853985752171,
+      "grad_norm": 5.911032676696777,
+      "learning_rate": 2.3448152492167586e-07,
+      "loss": 0.5412,
+      "step": 4680
+    },
+    {
+      "epoch": 0.12193853673755915,
+      "grad_norm": 4.567657947540283,
+      "learning_rate": 2.201029425805393e-07,
+      "loss": 0.6175,
+      "step": 4690
+    },
+    {
+      "epoch": 0.12219853361759658,
+      "grad_norm": 4.639158725738525,
+      "learning_rate": 2.061748926518972e-07,
+      "loss": 0.5388,
+      "step": 4700
+    },
+    {
+      "epoch": 0.12245853049763403,
+      "grad_norm": 7.211503982543945,
+      "learning_rate": 1.9269794766333073e-07,
+      "loss": 0.4986,
+      "step": 4710
+    },
+    {
+      "epoch": 0.12271852737767147,
+      "grad_norm": 5.461792945861816,
+      "learning_rate": 1.7967266159925864e-07,
+      "loss": 0.4924,
+      "step": 4720
+    },
+    {
+      "epoch": 0.1229785242577089,
+      "grad_norm": 4.597755432128906,
+      "learning_rate": 1.670995698781777e-07,
+      "loss": 0.5227,
+      "step": 4730
+    },
+    {
+      "epoch": 0.12323852113774635,
+      "grad_norm": 4.296584606170654,
+      "learning_rate": 1.549791893306424e-07,
+      "loss": 0.4637,
+      "step": 4740
+    },
+    {
+      "epoch": 0.12349851801778379,
+      "grad_norm": 5.01540994644165,
+      "learning_rate": 1.4331201817802332e-07,
+      "loss": 0.5115,
+      "step": 4750
+    },
+    {
+      "epoch": 0.12375851489782122,
+      "grad_norm": 6.2236528396606445,
+      "learning_rate": 1.320985360120322e-07,
+      "loss": 0.4769,
+      "step": 4760
+    },
+    {
+      "epoch": 0.12401851177785866,
+      "grad_norm": 6.63411283493042,
+      "learning_rate": 1.2133920377499848e-07,
+      "loss": 0.5284,
+      "step": 4770
+    },
+    {
+      "epoch": 0.12427850865789611,
+      "grad_norm": 6.101823329925537,
+      "learning_rate": 1.1103446374092981e-07,
+      "loss": 0.5553,
+      "step": 4780
+    },
+    {
+      "epoch": 0.12453850553793354,
+      "grad_norm": 5.5220441818237305,
+      "learning_rate": 1.0118473949732765e-07,
+      "loss": 0.5592,
+      "step": 4790
+    },
+    {
+      "epoch": 0.12479850241797098,
+      "grad_norm": 5.166587829589844,
+      "learning_rate": 9.179043592777716e-08,
+      "loss": 0.4284,
+      "step": 4800
+    },
+    {
+      "epoch": 0.12479850241797098,
+      "eval_loss": 0.580827534198761,
+      "eval_runtime": 47.7849,
+      "eval_samples_per_second": 10.464,
+      "eval_steps_per_second": 10.464,
+      "step": 4800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.567131782486426e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null