Upload 12 files

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +93 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef88acd7b940c0a42e85cb82aad1441811e9cad6a2a30dbe70b1e6dfd39899d4
 size 1115283588

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd48e3380c56b58e2149650ba8529096ec45c2d8a4d341e757dbac15836cab9c
 size 1115283588

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e95ab3a0e177ebef1a730ea6c25411246adf47a11f94abb1102b76fae92c729a
 size 2230686277

 version https://git-lfs.github.com/spec/v1
+oid sha256:f976b1edf0530e7271e36b457726806574321cfc8fb25126461bbda3ddddd1b3
 size 2230686277

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de71cb290b64bc136ac49050f7bce13d74391577dd275bda3c8142bd03f8bfb1
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6db6ae44865facac041c5d35025e75900dcf566f91bdfcbbe8128b143e2cd9a6
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b6716fb4bc72b67621113830aa02a129248ffd9a4100203fff469ffeaeccbf5
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d23ecd5f364728c2633cde01dd1980cb8e93cd41ca1a08aca9672958fd115a4
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.9327729940414429,
   "best_model_checkpoint": "./results/checkpoint-322",
-  "epoch": 16.0,
   "eval_steps": 500,
-  "global_step": 5152,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -243,6 +243,96 @@
       "eval_samples_per_second": 91.207,
       "eval_steps_per_second": 0.462,
       "step": 5152
     }
   ],
   "logging_steps": 500,
@@ -250,7 +340,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
-  "total_flos": 2.7107193386223206e+17,
   "train_batch_size": 200,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.9327729940414429,
   "best_model_checkpoint": "./results/checkpoint-322",
+  "epoch": 22.0,
   "eval_steps": 500,
+  "global_step": 7084,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 91.207,
       "eval_steps_per_second": 0.462,
       "step": 5152
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.3341034103410341,
+      "eval_loss": 5.483065605163574,
+      "eval_precision": 0.352613586631227,
+      "eval_recall": 0.3341034103410341,
+      "eval_runtime": 98.2468,
+      "eval_samples_per_second": 92.522,
+      "eval_steps_per_second": 0.468,
+      "step": 5474
+    },
+    {
+      "epoch": 17.08,
+      "learning_rate": 6.58385093167702e-05,
+      "loss": 0.0173,
+      "step": 5500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.3547854785478548,
+      "eval_loss": 5.973876476287842,
+      "eval_precision": 0.37074034210656404,
+      "eval_recall": 0.3547854785478548,
+      "eval_runtime": 99.9918,
+      "eval_samples_per_second": 90.907,
+      "eval_steps_per_second": 0.46,
+      "step": 5796
+    },
+    {
+      "epoch": 18.63,
+      "learning_rate": 6.273291925465838e-05,
+      "loss": 0.017,
+      "step": 6000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.3471947194719472,
+      "eval_loss": 5.270116329193115,
+      "eval_precision": 0.3540165595958133,
+      "eval_recall": 0.3471947194719472,
+      "eval_runtime": 98.3519,
+      "eval_samples_per_second": 92.423,
+      "eval_steps_per_second": 0.468,
+      "step": 6118
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.34994499449944994,
+      "eval_loss": 6.121872901916504,
+      "eval_precision": 0.3608309273966228,
+      "eval_recall": 0.34994499449944994,
+      "eval_runtime": 98.8185,
+      "eval_samples_per_second": 91.987,
+      "eval_steps_per_second": 0.465,
+      "step": 6440
+    },
+    {
+      "epoch": 20.19,
+      "learning_rate": 5.962732919254659e-05,
+      "loss": 0.0152,
+      "step": 6500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.3448844884488449,
+      "eval_loss": 6.195789337158203,
+      "eval_precision": 0.3597641027560754,
+      "eval_recall": 0.3448844884488449,
+      "eval_runtime": 98.2972,
+      "eval_samples_per_second": 92.475,
+      "eval_steps_per_second": 0.468,
+      "step": 6762
+    },
+    {
+      "epoch": 21.74,
+      "learning_rate": 5.652173913043478e-05,
+      "loss": 0.011,
+      "step": 7000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.35687568756875687,
+      "eval_loss": 5.533013820648193,
+      "eval_precision": 0.3680252789908563,
+      "eval_recall": 0.35687568756875687,
+      "eval_runtime": 97.9019,
+      "eval_samples_per_second": 92.848,
+      "eval_steps_per_second": 0.47,
+      "step": 7084
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 3.727239090605691e+17,
   "train_batch_size": 200,
   "trial_name": null,
   "trial_params": null