update model with newer version

by seanfarrell - opened Apr 18, 2025

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

+64

-107

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +60 -103

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3442c1081ff78c2774dadc957664f460ad8e7aff09f69795426e44bc110617fb
 size 430935892

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d8a1fc823d3ba0d45afc06b1105997300ad38030351b439d85610fa9fa38a75
 size 430935892

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78548e49b6e07a5dd70401777e183a938018221d95bacec37deb5cfea7c3cea4
 size 861991482

 version https://git-lfs.github.com/spec/v1
+oid sha256:eed95c6f0459164abd29b411040228bdd2d3ab9ef8949ba8423fab4ddfecad90
 size 861991482

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b9389e3c975d9d9e32d2f321f5b6b0fb6c890b1d505211a96a7d310402634a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4679e8a1fa9d31242916d045260107779d3bf18ad04f68edc0e2a86739d10fbd
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b945fec086e115cf1a1d6e87c7a969f5cbcc0d3d107c7173d88cc87d5ba391d6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73ec52a655b60bd9b36d5e598a010f1db1893ca2657401a77e3d62edf772ae6f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,164 +1,121 @@
 {
-  "best_global_step": 2752,
-  "best_metric": 0.0057959225960075855,
-  "best_model_checkpoint": "projects/PetBERT_annonymisation/data/case_sensitive/model/checkpoint-2752",
-  "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 4816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
-      "eval_f1": 0.011880094095301812,
-      "eval_loss": 2.4431910514831543,
-      "eval_precision": 0.08875808758622007,
-      "eval_recall": 0.05952071418656867,
-      "eval_runtime": 23.7929,
-      "eval_samples_per_second": 139.285,
-      "eval_steps_per_second": 4.371,
       "step": 0
     },
     {
       "epoch": 0.7267441860465116,
-      "grad_norm": 0.14246754348278046,
       "learning_rate": 4.996373546511628e-05,
-      "loss": 0.0494,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.8935989317265615,
-      "eval_loss": 0.006424472201615572,
-      "eval_precision": 0.8856397165335348,
-      "eval_recall": 0.9052291580842897,
-      "eval_runtime": 24.8439,
-      "eval_samples_per_second": 133.393,
-      "eval_steps_per_second": 4.186,
       "step": 688
     },
     {
       "epoch": 1.4534883720930232,
-      "grad_norm": 0.013319989666342735,
       "learning_rate": 4.992739825581396e-05,
-      "loss": 0.0044,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.921251638253682,
-      "eval_loss": 0.006238908972591162,
-      "eval_precision": 0.935008628082375,
-      "eval_recall": 0.9144731612976222,
-      "eval_runtime": 24.802,
-      "eval_samples_per_second": 133.618,
-      "eval_steps_per_second": 4.193,
       "step": 1376
     },
     {
       "epoch": 2.1802325581395348,
-      "grad_norm": 0.04109887406229973,
       "learning_rate": 4.989106104651163e-05,
-      "loss": 0.0032,
       "step": 1500
     },
     {
       "epoch": 2.9069767441860463,
-      "grad_norm": 0.3754558861255646,
       "learning_rate": 4.985472383720931e-05,
-      "loss": 0.0023,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.931311286064836,
-      "eval_loss": 0.006664152257144451,
-      "eval_precision": 0.9347111088313973,
-      "eval_recall": 0.9310447645995317,
-      "eval_runtime": 24.7968,
-      "eval_samples_per_second": 133.646,
-      "eval_steps_per_second": 4.194,
       "step": 2064
     },
     {
       "epoch": 3.633720930232558,
-      "grad_norm": 0.002286644419655204,
       "learning_rate": 4.981838662790698e-05,
-      "loss": 0.002,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.9188838249757393,
-      "eval_loss": 0.0057959225960075855,
-      "eval_precision": 0.9199713934746218,
-      "eval_recall": 0.9194240810494807,
-      "eval_runtime": 24.791,
-      "eval_samples_per_second": 133.677,
-      "eval_steps_per_second": 4.195,
       "step": 2752
     },
     {
       "epoch": 4.3604651162790695,
-      "grad_norm": 0.0007801814354024827,
       "learning_rate": 4.978204941860465e-05,
-      "loss": 0.0016,
       "step": 3000
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.8780986671708252,
-      "eval_loss": 0.008505718782544136,
-      "eval_precision": 0.868721341594642,
-      "eval_recall": 0.9097564277642886,
-      "eval_runtime": 24.8121,
-      "eval_samples_per_second": 133.564,
-      "eval_steps_per_second": 4.192,
       "step": 3440
-    },
-    {
-      "epoch": 5.087209302325581,
-      "grad_norm": 0.09036080539226532,
-      "learning_rate": 4.974571220930232e-05,
-      "loss": 0.0011,
-      "step": 3500
-    },
-    {
-      "epoch": 5.813953488372093,
-      "grad_norm": 0.08693202584981918,
-      "learning_rate": 4.9709375e-05,
-      "loss": 0.0012,
-      "step": 4000
-    },
-    {
-      "epoch": 6.0,
-      "eval_f1": 0.9238025924793921,
-      "eval_loss": 0.008721762336790562,
-      "eval_precision": 0.9375153926584012,
-      "eval_recall": 0.917450432310493,
-      "eval_runtime": 24.7949,
-      "eval_samples_per_second": 133.656,
-      "eval_steps_per_second": 4.194,
-      "step": 4128
-    },
-    {
-      "epoch": 6.540697674418604,
-      "grad_norm": 0.03196759149432182,
-      "learning_rate": 4.967303779069767e-05,
-      "loss": 0.0013,
-      "step": 4500
-    },
-    {
-      "epoch": 7.0,
-      "eval_f1": 0.9309400750123076,
-      "eval_loss": 0.009504728950560093,
-      "eval_precision": 0.9228721238354496,
-      "eval_recall": 0.9401722615087472,
-      "eval_runtime": 24.8542,
-      "eval_samples_per_second": 133.338,
-      "eval_steps_per_second": 4.184,
-      "step": 4816
     }
   ],
   "logging_steps": 500,
@@ -187,7 +144,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.023931632713933e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1376,
+  "best_metric": 0.008029412478208542,
+  "best_model_checkpoint": "projects/PetBERT_annonymisation/data/case_sensitive/model/checkpoint-1376",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 3440,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
+      "eval_f1": 0.010973861448813302,
+      "eval_loss": 2.4063162803649902,
+      "eval_precision": 0.09108980806958722,
+      "eval_recall": 0.10473207318294019,
+      "eval_runtime": 23.7722,
+      "eval_samples_per_second": 139.407,
+      "eval_steps_per_second": 4.375,
       "step": 0
     },
     {
       "epoch": 0.7267441860465116,
+      "grad_norm": 0.2666139304637909,
       "learning_rate": 4.996373546511628e-05,
+      "loss": 0.0518,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.9198586422350306,
+      "eval_loss": 0.010010140016674995,
+      "eval_precision": 0.9136306910527949,
+      "eval_recall": 0.9281047546302535,
+      "eval_runtime": 24.8489,
+      "eval_samples_per_second": 133.366,
+      "eval_steps_per_second": 4.185,
       "step": 688
     },
     {
       "epoch": 1.4534883720930232,
+      "grad_norm": 0.11741874366998672,
       "learning_rate": 4.992739825581396e-05,
+      "loss": 0.0036,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.9300254346144702,
+      "eval_loss": 0.008029412478208542,
+      "eval_precision": 0.9130114164496201,
+      "eval_recall": 0.9489397415434179,
+      "eval_runtime": 25.1412,
+      "eval_samples_per_second": 131.815,
+      "eval_steps_per_second": 4.137,
       "step": 1376
     },
     {
       "epoch": 2.1802325581395348,
+      "grad_norm": 0.3377048373222351,
       "learning_rate": 4.989106104651163e-05,
+      "loss": 0.0026,
       "step": 1500
     },
     {
       "epoch": 2.9069767441860463,
+      "grad_norm": 0.2929118573665619,
       "learning_rate": 4.985472383720931e-05,
+      "loss": 0.0011,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.9402795283929368,
+      "eval_loss": 0.01124291867017746,
+      "eval_precision": 0.9422754585534239,
+      "eval_recall": 0.9386206401984958,
+      "eval_runtime": 24.8815,
+      "eval_samples_per_second": 133.191,
+      "eval_steps_per_second": 4.18,
       "step": 2064
     },
     {
       "epoch": 3.633720930232558,
+      "grad_norm": 0.002858501160517335,
       "learning_rate": 4.981838662790698e-05,
+      "loss": 0.0012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.9321076846329125,
+      "eval_loss": 0.011350538581609726,
+      "eval_precision": 0.9585579423470411,
+      "eval_recall": 0.9092514508781232,
+      "eval_runtime": 24.8844,
+      "eval_samples_per_second": 133.176,
+      "eval_steps_per_second": 4.179,
       "step": 2752
     },
     {
       "epoch": 4.3604651162790695,
+      "grad_norm": 0.3254820704460144,
       "learning_rate": 4.978204941860465e-05,
+      "loss": 0.001,
       "step": 3000
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.9375959937426187,
+      "eval_loss": 0.012251886539161205,
+      "eval_precision": 0.9347887957568951,
+      "eval_recall": 0.9407576824824448,
+      "eval_runtime": 24.848,
+      "eval_samples_per_second": 133.371,
+      "eval_steps_per_second": 4.185,
       "step": 3440
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.874236880509952e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null