Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +150 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acdf3bd464fdcfe16ffaad059aee186aef0260a317e881d2c63f2467d8cb6499
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:65656f427a8c1b2c852eb04065a03dc8e05637db3b50b5d4ae72991160e67bce
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa2bebcc00ca5249a06c0f668bb1ed9279a27d88b8a368fe39f39e4a7657d54c
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e48ae36804c8c5bd040576f72a1c35dc67307237858a4a6849ca6da8a7f3345
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:037d13720220086c05f76f1146cd4356e8b9d075b5d306338df00d366045e1c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76c4c2dca19bfb0a463693a0e409b44510488650d816e566bccd2a2851e9524
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4c00d522bdde510099aafe1617b13d114dce17a17b44e05876f016f4e4d7af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0b9a1e2fa3da24e9af8b74787d70ff4c95d9bc9b74eeab135df0350a00b462
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7309858202934265,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 13.043478260869565,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -297,6 +297,151 @@
       "eval_samples_per_second": 24.719,
       "eval_steps_per_second": 24.719,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -316,7 +461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7724643094462464.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7168284058570862,
+  "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 19.565217391304348,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.719,
       "eval_steps_per_second": 24.719,
       "step": 300
+    },
+    {
+      "epoch": 13.478260869565217,
+      "grad_norm": 1.783539056777954,
+      "learning_rate": 2.9998689031728636e-05,
+      "loss": 0.5145,
+      "step": 310
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 1.5309405326843262,
+      "learning_rate": 2.9998561206933938e-05,
+      "loss": 0.6497,
+      "step": 320
+    },
+    {
+      "epoch": 14.347826086956522,
+      "grad_norm": 1.4793602228164673,
+      "learning_rate": 2.9998427437188786e-05,
+      "loss": 0.5743,
+      "step": 330
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 1.3178294897079468,
+      "learning_rate": 2.99982877225462e-05,
+      "loss": 0.6015,
+      "step": 340
+    },
+    {
+      "epoch": 15.217391304347826,
+      "grad_norm": 0.978071928024292,
+      "learning_rate": 2.9998142063061564e-05,
+      "loss": 0.4987,
+      "step": 350
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 1.6408658027648926,
+      "learning_rate": 2.9997990458792603e-05,
+      "loss": 0.5627,
+      "step": 360
+    },
+    {
+      "epoch": 16.08695652173913,
+      "grad_norm": 1.6342864036560059,
+      "learning_rate": 2.9997832909799417e-05,
+      "loss": 0.6672,
+      "step": 370
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.9524793028831482,
+      "learning_rate": 2.9997669416144452e-05,
+      "loss": 0.513,
+      "step": 380
+    },
+    {
+      "epoch": 16.956521739130434,
+      "grad_norm": 0.9344761371612549,
+      "learning_rate": 2.999749997789251e-05,
+      "loss": 0.5794,
+      "step": 390
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 1.1158229112625122,
+      "learning_rate": 2.9997324595110743e-05,
+      "loss": 0.518,
+      "step": 400
+    },
+    {
+      "epoch": 17.82608695652174,
+      "grad_norm": 1.2849094867706299,
+      "learning_rate": 2.9997143267868683e-05,
+      "loss": 0.5879,
+      "step": 410
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 1.1642646789550781,
+      "learning_rate": 2.9996955996238192e-05,
+      "loss": 0.5056,
+      "step": 420
+    },
+    {
+      "epoch": 18.695652173913043,
+      "grad_norm": 1.2012473344802856,
+      "learning_rate": 2.9996762780293503e-05,
+      "loss": 0.5318,
+      "step": 430
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 1.213199257850647,
+      "learning_rate": 2.9996563620111197e-05,
+      "loss": 0.5336,
+      "step": 440
+    },
+    {
+      "epoch": 19.565217391304348,
+      "grad_norm": 1.4254536628723145,
+      "learning_rate": 2.9996358515770218e-05,
+      "loss": 0.568,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7168284058570862,
+      "eval_runtime": 0.5799,
+      "eval_samples_per_second": 17.244,
+      "eval_steps_per_second": 17.244,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8616224527359009,
+      "eval_runtime": 0.5422,
+      "eval_samples_per_second": 18.444,
+      "eval_steps_per_second": 18.444,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7168284058570862,
+      "eval_runtime": 0.5615,
+      "eval_samples_per_second": 17.809,
+      "eval_steps_per_second": 17.809,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7562109231948853,
+      "eval_runtime": 0.4866,
+      "eval_samples_per_second": 20.549,
+      "eval_steps_per_second": 20.549,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8607499003410339,
+      "eval_runtime": 0.4084,
+      "eval_samples_per_second": 24.487,
+      "eval_steps_per_second": 24.487,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1591800814075904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null