Training in progress, step 1200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +140 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffadfcecebb0222aa110b4c04dc7dcf449445cb1257ad373d2c573864d4946f4
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a6dd8eb15d303eb3b236d8f68cc9d45fec3651e65ec39b9d552d49c0ad3e89e
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48049032ce30e690a0e20e1c74a40a3d0d491ae37296b800adf28f948ac25c62
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bdb1caf162c588fbb79a826fe5e343b59d9db2b4bcedf59ac4a5cc0d94edc2e
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5033c3d16bccb36ffaebb5ce29ad27ffe0f183d458fcf132e776197413917bfa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd83aa19eaa65ffd8facfc7a6e6b5ccb62a4255eff28971986e07fccd1c0b48
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15c1d156a1458cb6f00d5682720ac01d76d87fde2ae92aa38769a7cbc234762e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:87220f7564c527fa546ba53e49f1fc40170b9568e84927eecccc6abfeef8f191
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7167766094207764,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 45.65217391304348,
   "eval_steps": 150,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -822,6 +822,143 @@
       "eval_samples_per_second": 25.331,
       "eval_steps_per_second": 25.331,
       "step": 1050
     }
   ],
   "logging_steps": 10,
@@ -841,7 +978,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.696323352857805e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7167766094207764,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 52.17391304347826,
   "eval_steps": 150,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.331,
       "eval_steps_per_second": 25.331,
       "step": 1050
+    },
+    {
+      "epoch": 46.08695652173913,
+      "grad_norm": 1.6549588441848755,
+      "learning_rate": 1.498658941680816e-06,
+      "loss": 0.4324,
+      "step": 1060
+    },
+    {
+      "epoch": 46.52173913043478,
+      "grad_norm": 1.7663071155548096,
+      "learning_rate": 2.997317883361632e-06,
+      "loss": 0.4069,
+      "step": 1070
+    },
+    {
+      "epoch": 46.95652173913044,
+      "grad_norm": 1.6513171195983887,
+      "learning_rate": 4.495976825042448e-06,
+      "loss": 0.3544,
+      "step": 1080
+    },
+    {
+      "epoch": 47.391304347826086,
+      "grad_norm": 1.8116092681884766,
+      "learning_rate": 5.994635766723264e-06,
+      "loss": 0.3649,
+      "step": 1090
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 1.367565631866455,
+      "learning_rate": 7.49329470840408e-06,
+      "loss": 0.3867,
+      "step": 1100
+    },
+    {
+      "epoch": 48.26086956521739,
+      "grad_norm": 1.97525155544281,
+      "learning_rate": 8.991953650084896e-06,
+      "loss": 0.4065,
+      "step": 1110
+    },
+    {
+      "epoch": 48.69565217391305,
+      "grad_norm": 1.3725110292434692,
+      "learning_rate": 1.0490612591765711e-05,
+      "loss": 0.3328,
+      "step": 1120
+    },
+    {
+      "epoch": 49.130434782608695,
+      "grad_norm": 1.5865428447723389,
+      "learning_rate": 1.1989271533446528e-05,
+      "loss": 0.4513,
+      "step": 1130
+    },
+    {
+      "epoch": 49.56521739130435,
+      "grad_norm": 1.0248826742172241,
+      "learning_rate": 1.3487930475127345e-05,
+      "loss": 0.4104,
+      "step": 1140
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 2.4268105030059814,
+      "learning_rate": 1.498658941680816e-05,
+      "loss": 0.3258,
+      "step": 1150
+    },
+    {
+      "epoch": 50.43478260869565,
+      "grad_norm": 1.2192784547805786,
+      "learning_rate": 1.4986587931756856e-05,
+      "loss": 0.3361,
+      "step": 1160
+    },
+    {
+      "epoch": 50.869565217391305,
+      "grad_norm": 1.552140235900879,
+      "learning_rate": 1.498658347660353e-05,
+      "loss": 0.381,
+      "step": 1170
+    },
+    {
+      "epoch": 51.30434782608695,
+      "grad_norm": 1.729295015335083,
+      "learning_rate": 1.4986576051349949e-05,
+      "loss": 0.3972,
+      "step": 1180
+    },
+    {
+      "epoch": 51.73913043478261,
+      "grad_norm": 1.041821837425232,
+      "learning_rate": 1.4986565655999056e-05,
+      "loss": 0.3202,
+      "step": 1190
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 2.18989634513855,
+      "learning_rate": 1.4986552290554973e-05,
+      "loss": 0.4601,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7619463205337524,
+      "eval_runtime": 0.4087,
+      "eval_samples_per_second": 24.465,
+      "eval_steps_per_second": 24.465,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7558861970901489,
+      "eval_runtime": 0.424,
+      "eval_samples_per_second": 23.585,
+      "eval_steps_per_second": 23.585,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7579597234725952,
+      "eval_runtime": 0.4327,
+      "eval_samples_per_second": 23.111,
+      "eval_steps_per_second": 23.111,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7568685412406921,
+      "eval_runtime": 0.4348,
+      "eval_samples_per_second": 22.998,
+      "eval_steps_per_second": 22.998,
+      "step": 1200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.076671992345395e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null