Training in progress, step 1350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +140 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a6dd8eb15d303eb3b236d8f68cc9d45fec3651e65ec39b9d552d49c0ad3e89e
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffa55cd66a91334e326e07df94597fc69e79e4b574e9fd7db3b180e03bf34a5a
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bdb1caf162c588fbb79a826fe5e343b59d9db2b4bcedf59ac4a5cc0d94edc2e
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:10ea9539f99ad90d4237f78923fd6eabfa6be63c3f014ac341847df0a0c27d26
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd83aa19eaa65ffd8facfc7a6e6b5ccb62a4255eff28971986e07fccd1c0b48
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa041c836419a6bfa571598f365167fc714355f663c100bd675c5722ac5b2b43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87220f7564c527fa546ba53e49f1fc40170b9568e84927eecccc6abfeef8f191
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50a64c967527f5f080ab65c7a91bddbd4b12cb03e94ccfc2d01741bebae5f6a9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7167766094207764,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 52.17391304347826,
   "eval_steps": 150,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -959,6 +959,143 @@
       "eval_samples_per_second": 22.998,
       "eval_steps_per_second": 22.998,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -978,7 +1115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.076671992345395e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7167766094207764,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 58.69565217391305,
   "eval_steps": 150,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.998,
       "eval_steps_per_second": 22.998,
       "step": 1200
+    },
+    {
+      "epoch": 52.608695652173914,
+      "grad_norm": 1.362567663192749,
+      "learning_rate": 1.4986535955022992e-05,
+      "loss": 0.3321,
+      "step": 1210
+    },
+    {
+      "epoch": 53.04347826086956,
+      "grad_norm": 1.6412482261657715,
+      "learning_rate": 1.4986516649409596e-05,
+      "loss": 0.4151,
+      "step": 1220
+    },
+    {
+      "epoch": 53.47826086956522,
+      "grad_norm": 1.216570258140564,
+      "learning_rate": 1.498649437372243e-05,
+      "loss": 0.3162,
+      "step": 1230
+    },
+    {
+      "epoch": 53.91304347826087,
+      "grad_norm": 1.761721134185791,
+      "learning_rate": 1.4986469127970329e-05,
+      "loss": 0.3817,
+      "step": 1240
+    },
+    {
+      "epoch": 54.34782608695652,
+      "grad_norm": 1.6624178886413574,
+      "learning_rate": 1.4986440912163295e-05,
+      "loss": 0.4377,
+      "step": 1250
+    },
+    {
+      "epoch": 54.78260869565217,
+      "grad_norm": 1.047031044960022,
+      "learning_rate": 1.4986409726312515e-05,
+      "loss": 0.3297,
+      "step": 1260
+    },
+    {
+      "epoch": 55.21739130434783,
+      "grad_norm": 1.37089204788208,
+      "learning_rate": 1.498637557043035e-05,
+      "loss": 0.3577,
+      "step": 1270
+    },
+    {
+      "epoch": 55.65217391304348,
+      "grad_norm": 1.563143014907837,
+      "learning_rate": 1.4986338444530336e-05,
+      "loss": 0.4021,
+      "step": 1280
+    },
+    {
+      "epoch": 56.08695652173913,
+      "grad_norm": 2.0261929035186768,
+      "learning_rate": 1.498629834862719e-05,
+      "loss": 0.3311,
+      "step": 1290
+    },
+    {
+      "epoch": 56.52173913043478,
+      "grad_norm": 1.29714834690094,
+      "learning_rate": 1.4986255282736802e-05,
+      "loss": 0.3869,
+      "step": 1300
+    },
+    {
+      "epoch": 56.95652173913044,
+      "grad_norm": 1.6435688734054565,
+      "learning_rate": 1.4986209246876247e-05,
+      "loss": 0.3798,
+      "step": 1310
+    },
+    {
+      "epoch": 57.391304347826086,
+      "grad_norm": 1.2977672815322876,
+      "learning_rate": 1.498616024106377e-05,
+      "loss": 0.3622,
+      "step": 1320
+    },
+    {
+      "epoch": 57.82608695652174,
+      "grad_norm": 2.4099888801574707,
+      "learning_rate": 1.4986108265318795e-05,
+      "loss": 0.3856,
+      "step": 1330
+    },
+    {
+      "epoch": 58.26086956521739,
+      "grad_norm": 1.3188731670379639,
+      "learning_rate": 1.4986053319661923e-05,
+      "loss": 0.3783,
+      "step": 1340
+    },
+    {
+      "epoch": 58.69565217391305,
+      "grad_norm": 1.5936689376831055,
+      "learning_rate": 1.4985995404114931e-05,
+      "loss": 0.3569,
+      "step": 1350
+    },
+    {
+      "epoch": 58.69565217391305,
+      "eval_loss": 0.769973635673523,
+      "eval_runtime": 0.4063,
+      "eval_samples_per_second": 24.611,
+      "eval_steps_per_second": 24.611,
+      "step": 1350
+    },
+    {
+      "epoch": 58.69565217391305,
+      "eval_loss": 0.7558861970901489,
+      "eval_runtime": 0.4014,
+      "eval_samples_per_second": 24.915,
+      "eval_steps_per_second": 24.915,
+      "step": 1350
+    },
+    {
+      "epoch": 58.69565217391305,
+      "eval_loss": 0.7593681216239929,
+      "eval_runtime": 0.3975,
+      "eval_samples_per_second": 25.16,
+      "eval_steps_per_second": 25.16,
+      "step": 1350
+    },
+    {
+      "epoch": 58.69565217391305,
+      "eval_loss": 0.7557762861251831,
+      "eval_runtime": 0.3974,
+      "eval_samples_per_second": 25.162,
+      "eval_steps_per_second": 25.162,
+      "step": 1350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.460993413931008e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null