Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69091518cc0b30fba570513f2ad6dce927058efd9b45854103b7c63f26268789
 size 676264504

 version https://git-lfs.github.com/spec/v1
+oid sha256:f85ca20b418fa3a0561a7e436d2b07ab97306cfc912b0eebdaa80a5d92480329
 size 676264504

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88e5af4245f1d4d826b0828aa6826c726552cfbb887ef062de34ce821fde9076
-size 1274083770

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbdd4e098a6ae83c7a33a6977bb3d1e0bc8a71ceca5815a88c8a638cd3fed138
+size 1274083706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46db5b146df8c0d78e6e1d37f8bfcd2c967c487ef9e72d4a71e17448993f0094
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ec0b679e1b07be432106dce82718f940fa60e228ec90c2dbe244ca1057dbbde
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac5f39cff78dbcb4d12b97b9e8b1e16624c544af38c507e787f6f6a19013821
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:388b33af9ccc80fdb83f03a3a59d7426230bca392fb13bf15fe996173ee1addc
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5393686294555664,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.42560737719453806,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 11.324,
       "eval_steps_per_second": 11.324,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.7766341201821696e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5390969514846802,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.4389076077318674,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.324,
       "eval_steps_per_second": 11.324,
       "step": 4800
+    },
+    {
+      "epoch": 0.42649405923036,
+      "grad_norm": 2.613832473754883,
+      "learning_rate": 1.6303105993536925e-07,
+      "loss": 1.5529,
+      "step": 4810
+    },
+    {
+      "epoch": 0.427380741266182,
+      "grad_norm": 2.5583670139312744,
+      "learning_rate": 1.4634005624572287e-07,
+      "loss": 1.5858,
+      "step": 4820
+    },
+    {
+      "epoch": 0.4282674233020039,
+      "grad_norm": 2.4231204986572266,
+      "learning_rate": 1.3054737092143243e-07,
+      "loss": 1.5299,
+      "step": 4830
+    },
+    {
+      "epoch": 0.42915410533782583,
+      "grad_norm": 2.3970510959625244,
+      "learning_rate": 1.1565365313793708e-07,
+      "loss": 1.5733,
+      "step": 4840
+    },
+    {
+      "epoch": 0.4300407873736478,
+      "grad_norm": 2.8405940532684326,
+      "learning_rate": 1.0165951511763893e-07,
+      "loss": 1.5557,
+      "step": 4850
+    },
+    {
+      "epoch": 0.43092746940946974,
+      "grad_norm": 2.481167793273926,
+      "learning_rate": 8.856553210474049e-08,
+      "loss": 1.5441,
+      "step": 4860
+    },
+    {
+      "epoch": 0.4318141514452917,
+      "grad_norm": 2.3467509746551514,
+      "learning_rate": 7.637224234159889e-08,
+      "loss": 1.4108,
+      "step": 4870
+    },
+    {
+      "epoch": 0.43270083348111366,
+      "grad_norm": 2.429136037826538,
+      "learning_rate": 6.508014704659936e-08,
+      "loss": 1.5114,
+      "step": 4880
+    },
+    {
+      "epoch": 0.43358751551693564,
+      "grad_norm": 2.5291168689727783,
+      "learning_rate": 5.4689710393547974e-08,
+      "loss": 1.5178,
+      "step": 4890
+    },
+    {
+      "epoch": 0.43447419755275757,
+      "grad_norm": 2.6658997535705566,
+      "learning_rate": 4.520135949260062e-08,
+      "loss": 1.5455,
+      "step": 4900
+    },
+    {
+      "epoch": 0.43536087958857955,
+      "grad_norm": 2.6730663776397705,
+      "learning_rate": 3.661548437270157e-08,
+      "loss": 1.617,
+      "step": 4910
+    },
+    {
+      "epoch": 0.4362475616244015,
+      "grad_norm": 2.9059014320373535,
+      "learning_rate": 2.8932437965543568e-08,
+      "loss": 1.4434,
+      "step": 4920
+    },
+    {
+      "epoch": 0.43713424366022346,
+      "grad_norm": 2.449871778488159,
+      "learning_rate": 2.2152536091079032e-08,
+      "loss": 1.6368,
+      "step": 4930
+    },
+    {
+      "epoch": 0.4380209256960454,
+      "grad_norm": 2.5058703422546387,
+      "learning_rate": 1.6276057444511328e-08,
+      "loss": 1.554,
+      "step": 4940
+    },
+    {
+      "epoch": 0.4389076077318674,
+      "grad_norm": 2.333997964859009,
+      "learning_rate": 1.130324358486634e-08,
+      "loss": 1.5118,
+      "step": 4950
+    },
+    {
+      "epoch": 0.4389076077318674,
+      "eval_loss": 1.5390969514846802,
+      "eval_runtime": 44.5322,
+      "eval_samples_per_second": 11.228,
+      "eval_steps_per_second": 11.228,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.893298285036749e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null