update model with newer version

by seanfarrell - opened Apr 18, 2025

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+126

-109

Files changed (7) hide show

config.json +1 -2
model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +120 -102
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "SAVSNET/PetBERT",
   "architectures": [
     "BertForTokenClassification"
   ],
@@ -45,7 +44,7 @@
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.49.0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 28996

 {
   "architectures": [
     "BertForTokenClassification"
   ],
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.52.0.dev0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 28996

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d787fa373e2a20405729f5f8fd20634ed7d89854401f2e9f76598c6d8a2838fa
 size 430935892

 version https://git-lfs.github.com/spec/v1
+oid sha256:3442c1081ff78c2774dadc957664f460ad8e7aff09f69795426e44bc110617fb
 size 430935892

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34d1a9d1c56d780ee32cc5ea9d148c155eab84dcb4f470f18cded1843f567057
 size 861991482

 version https://git-lfs.github.com/spec/v1
+oid sha256:78548e49b6e07a5dd70401777e183a938018221d95bacec37deb5cfea7c3cea4
 size 861991482

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3febb3b3f425e0c608f3cbfd4dada46dff84a0ab4e6f0d5af3509635b3625b1d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9389e3c975d9d9e32d2f321f5b6b0fb6c890b1d505211a96a7d310402634a1
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f92cf41b26baf29a9e9859022afbcc34c3cf250a34ff0d0481210b689244adb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b945fec086e115cf1a1d6e87c7a969f5cbcc0d3d107c7173d88cc87d5ba391d6
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,150 +1,168 @@
 {
-  "best_metric": 0.00631814356893301,
-  "best_model_checkpoint": "projects/PetEVAL/new_splits/1.annonymisation/models/PetBERT/checkpoint-1720",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 2752,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
-      "eval_f1": 0.026656853558445003,
-      "eval_loss": 2.3131918907165527,
-      "eval_precision": 0.0902669662721398,
-      "eval_recall": 0.08842821455048296,
-      "eval_runtime": 12.0984,
-      "eval_samples_per_second": 136.96,
-      "eval_steps_per_second": 4.298,
       "step": 0
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.8744901409239865,
-      "eval_loss": 0.00956493616104126,
-      "eval_precision": 0.924093580277631,
-      "eval_recall": 0.8507210610221329,
-      "eval_runtime": 13.1724,
-      "eval_samples_per_second": 125.793,
-      "eval_steps_per_second": 3.948,
-      "step": 344
     },
     {
       "epoch": 1.4534883720930232,
-      "grad_norm": 0.13440628349781036,
-      "learning_rate": 4.992732558139535e-05,
-      "loss": 0.0512,
-      "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.9214380148383657,
-      "eval_loss": 0.007954263128340244,
-      "eval_precision": 0.9385945722545549,
-      "eval_recall": 0.906823887476179,
-      "eval_runtime": 13.6821,
-      "eval_samples_per_second": 121.107,
-      "eval_steps_per_second": 3.801,
-      "step": 688
     },
     {
       "epoch": 2.9069767441860463,
-      "grad_norm": 0.5610215067863464,
-      "learning_rate": 4.98546511627907e-05,
-      "loss": 0.0031,
-      "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.9389481710629304,
-      "eval_loss": 0.010447051376104355,
-      "eval_precision": 0.9747087173167618,
-      "eval_recall": 0.9103769387756578,
-      "eval_runtime": 13.7684,
-      "eval_samples_per_second": 120.348,
-      "eval_steps_per_second": 3.777,
-      "step": 1032
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.9195094134396675,
-      "eval_loss": 0.008201838470995426,
-      "eval_precision": 0.9279236120830319,
-      "eval_recall": 0.9142686302660742,
-      "eval_runtime": 13.9313,
-      "eval_samples_per_second": 118.941,
-      "eval_steps_per_second": 3.733,
-      "step": 1376
     },
     {
       "epoch": 4.3604651162790695,
-      "grad_norm": 0.013739518821239471,
-      "learning_rate": 4.978197674418605e-05,
-      "loss": 0.0019,
-      "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.94402458580998,
-      "eval_loss": 0.00631814356893301,
-      "eval_precision": 0.9511782836087214,
-      "eval_recall": 0.9389296462653962,
-      "eval_runtime": 15.0907,
-      "eval_samples_per_second": 109.803,
-      "eval_steps_per_second": 3.446,
-      "step": 1720
     },
     {
       "epoch": 5.813953488372093,
-      "grad_norm": 0.0020324508659541607,
-      "learning_rate": 4.97093023255814e-05,
-      "loss": 0.001,
-      "step": 2000
     },
     {
       "epoch": 6.0,
-      "eval_f1": 0.9457105386380245,
-      "eval_loss": 0.007111889310181141,
-      "eval_precision": 0.9460455625427084,
-      "eval_recall": 0.9459687123326699,
-      "eval_runtime": 14.2199,
-      "eval_samples_per_second": 116.527,
-      "eval_steps_per_second": 3.657,
-      "step": 2064
     },
     {
-      "epoch": 7.0,
-      "eval_f1": 0.9223422806557113,
-      "eval_loss": 0.011202913708984852,
-      "eval_precision": 0.9596132263722048,
-      "eval_recall": 0.893850072449603,
-      "eval_runtime": 14.2319,
-      "eval_samples_per_second": 116.429,
-      "eval_steps_per_second": 3.654,
-      "step": 2408
-    },
-    {
-      "epoch": 7.267441860465116,
-      "grad_norm": 0.013395079411566257,
-      "learning_rate": 4.963662790697674e-05,
-      "loss": 0.0011,
-      "step": 2500
     },
     {
-      "epoch": 8.0,
-      "eval_f1": 0.9369894102286561,
-      "eval_loss": 0.007823295891284943,
-      "eval_precision": 0.93213302687968,
-      "eval_recall": 0.9433066007345208,
-      "eval_runtime": 15.2166,
-      "eval_samples_per_second": 108.894,
-      "eval_steps_per_second": 3.417,
-      "step": 2752
     }
   ],
   "logging_steps": 500,
-  "max_steps": 344000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1000,
   "save_steps": 500,
@@ -169,7 +187,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2993895044079616e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 2752,
+  "best_metric": 0.0057959225960075855,
+  "best_model_checkpoint": "projects/PetBERT_annonymisation/data/case_sensitive/model/checkpoint-2752",
+  "epoch": 7.0,
   "eval_steps": 500,
+  "global_step": 4816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
+      "eval_f1": 0.011880094095301812,
+      "eval_loss": 2.4431910514831543,
+      "eval_precision": 0.08875808758622007,
+      "eval_recall": 0.05952071418656867,
+      "eval_runtime": 23.7929,
+      "eval_samples_per_second": 139.285,
+      "eval_steps_per_second": 4.371,
       "step": 0
     },
+    {
+      "epoch": 0.7267441860465116,
+      "grad_norm": 0.14246754348278046,
+      "learning_rate": 4.996373546511628e-05,
+      "loss": 0.0494,
+      "step": 500
+    },
     {
       "epoch": 1.0,
+      "eval_f1": 0.8935989317265615,
+      "eval_loss": 0.006424472201615572,
+      "eval_precision": 0.8856397165335348,
+      "eval_recall": 0.9052291580842897,
+      "eval_runtime": 24.8439,
+      "eval_samples_per_second": 133.393,
+      "eval_steps_per_second": 4.186,
+      "step": 688
     },
     {
       "epoch": 1.4534883720930232,
+      "grad_norm": 0.013319989666342735,
+      "learning_rate": 4.992739825581396e-05,
+      "loss": 0.0044,
+      "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.921251638253682,
+      "eval_loss": 0.006238908972591162,
+      "eval_precision": 0.935008628082375,
+      "eval_recall": 0.9144731612976222,
+      "eval_runtime": 24.802,
+      "eval_samples_per_second": 133.618,
+      "eval_steps_per_second": 4.193,
+      "step": 1376
+    },
+    {
+      "epoch": 2.1802325581395348,
+      "grad_norm": 0.04109887406229973,
+      "learning_rate": 4.989106104651163e-05,
+      "loss": 0.0032,
+      "step": 1500
     },
     {
       "epoch": 2.9069767441860463,
+      "grad_norm": 0.3754558861255646,
+      "learning_rate": 4.985472383720931e-05,
+      "loss": 0.0023,
+      "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.931311286064836,
+      "eval_loss": 0.006664152257144451,
+      "eval_precision": 0.9347111088313973,
+      "eval_recall": 0.9310447645995317,
+      "eval_runtime": 24.7968,
+      "eval_samples_per_second": 133.646,
+      "eval_steps_per_second": 4.194,
+      "step": 2064
+    },
+    {
+      "epoch": 3.633720930232558,
+      "grad_norm": 0.002286644419655204,
+      "learning_rate": 4.981838662790698e-05,
+      "loss": 0.002,
+      "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.9188838249757393,
+      "eval_loss": 0.0057959225960075855,
+      "eval_precision": 0.9199713934746218,
+      "eval_recall": 0.9194240810494807,
+      "eval_runtime": 24.791,
+      "eval_samples_per_second": 133.677,
+      "eval_steps_per_second": 4.195,
+      "step": 2752
     },
     {
       "epoch": 4.3604651162790695,
+      "grad_norm": 0.0007801814354024827,
+      "learning_rate": 4.978204941860465e-05,
+      "loss": 0.0016,
+      "step": 3000
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.8780986671708252,
+      "eval_loss": 0.008505718782544136,
+      "eval_precision": 0.868721341594642,
+      "eval_recall": 0.9097564277642886,
+      "eval_runtime": 24.8121,
+      "eval_samples_per_second": 133.564,
+      "eval_steps_per_second": 4.192,
+      "step": 3440
+    },
+    {
+      "epoch": 5.087209302325581,
+      "grad_norm": 0.09036080539226532,
+      "learning_rate": 4.974571220930232e-05,
+      "loss": 0.0011,
+      "step": 3500
     },
     {
       "epoch": 5.813953488372093,
+      "grad_norm": 0.08693202584981918,
+      "learning_rate": 4.9709375e-05,
+      "loss": 0.0012,
+      "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_f1": 0.9238025924793921,
+      "eval_loss": 0.008721762336790562,
+      "eval_precision": 0.9375153926584012,
+      "eval_recall": 0.917450432310493,
+      "eval_runtime": 24.7949,
+      "eval_samples_per_second": 133.656,
+      "eval_steps_per_second": 4.194,
+      "step": 4128
     },
     {
+      "epoch": 6.540697674418604,
+      "grad_norm": 0.03196759149432182,
+      "learning_rate": 4.967303779069767e-05,
+      "loss": 0.0013,
+      "step": 4500
     },
     {
+      "epoch": 7.0,
+      "eval_f1": 0.9309400750123076,
+      "eval_loss": 0.009504728950560093,
+      "eval_precision": 0.9228721238354496,
+      "eval_recall": 0.9401722615087472,
+      "eval_runtime": 24.8542,
+      "eval_samples_per_second": 133.338,
+      "eval_steps_per_second": 4.184,
+      "step": 4816
     }
   ],
   "logging_steps": 500,
+  "max_steps": 688000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1000,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.023931632713933e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5d7a6d63c5d8abe86bc27987fca8ab5373350831d6ac76610b2f6f020217a56
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7f8df01d5a1682106eccdf01898b00019477ad3b989dbc3741b897bbcf18bbf
 size 5304