Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +1 -1
model.safetensors +1 -1
optimizer.pt +2 -2
results.txt +6 -0
rng_state.pth +2 -2
scheduler.pt +2 -2
trainer_state.json +60 -165
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -34,7 +34,7 @@
   "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.41.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 119547

   "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.48.0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 119547

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba7caab1fc24d54e4945648fb0607ca10634c0084ba0080accc1619b6d58055
 size 709083980

 version https://git-lfs.github.com/spec/v1
+oid sha256:55bbf3ceae134f1cc2ad0c57efca348da2823746a6d5b6e97e596193c04d363e
 size 709083980

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64fa743c60be9c4c25d0d06018797708fa5c5d8c13c40aa1803ee095622030cd
-size 1418287674

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b836f30893427e221487e575727921a7478c6f139bdfdec378b1cd1a539df28
+size 1418288139

results.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+Best model on test data
+|           |   Segment Content |   Segment Boundary |
+|-----------+-------------------+--------------------|
+| Precision |          0.99073  |           0.884803 |
+| Recall    |          0.986411 |           0.91858  |
+| F1        |          0.988566 |           0.901375 |

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d92f8588ca4576196e1ff5806fd549535f1e969c714eae025e4c9f25d11bd5bb
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:102015cca1b18727a0a043ded5c1363cac2464e4ec9c72e2502f8fdf86cfa502
+size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:005e6bda6cd88475018063d38f5944852738698cb0b5363e8ec1c9bf609c6c68
-size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e17d618a317c719cd27895bd4f2783df2b891d58b45dc85487fa1b973ffebbf7
+size 1465

trainer_state.json CHANGED Viewed

@@ -1,214 +1,109 @@
 {
-  "best_metric": 0.009304543025791645,
-  "best_model_checkpoint": "results_multilingual_model/epoch50_bs100/checkpoint-240",
-  "epoch": 6.0,
   "eval_steps": 500,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.0904545858502388,
       "learning_rate": 4.9e-05,
-      "loss": 0.0833,
-      "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_accurracy": {
-        "accuracy": 0.9942178762266288
       },
       "eval_f1": [
-        0.9811026821999458,
-        0.812751677852349,
-        1.0
       ],
-      "eval_loss": 0.015753956511616707,
       "eval_precision": [
-        0.9769120093520974,
-        0.8488317757009346,
-        1.0
       ],
       "eval_recall": [
-        0.9853294635163938,
-        0.7796137339055794,
-        1.0
       ],
-      "eval_runtime": 9.1266,
-      "eval_samples_per_second": 76.809,
-      "eval_steps_per_second": 0.877,
-      "step": 60
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.056562066078186035,
       "learning_rate": 4.8e-05,
-      "loss": 0.0113,
-      "step": 120
     },
     {
       "epoch": 2.0,
-      "eval_accurracy": {
-        "accuracy": 0.9961314345124399
       },
       "eval_f1": [
-        0.9873171173619604,
-        0.8784722222222222,
-        1.0
       ],
-      "eval_loss": 0.010700768791139126,
       "eval_precision": [
-        0.9861557254671312,
-        0.8884986830553117,
-        1.0
       ],
       "eval_recall": [
-        0.988481248015963,
-        0.8686695278969957,
-        1.0
       ],
-      "eval_runtime": 9.2093,
-      "eval_samples_per_second": 76.118,
-      "eval_steps_per_second": 0.869,
-      "step": 120
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.046516694128513336,
       "learning_rate": 4.7e-05,
-      "loss": 0.0082,
-      "step": 180
     },
     {
       "epoch": 3.0,
-      "eval_accurracy": {
-        "accuracy": 0.9964975666032267
       },
       "eval_f1": [
-        0.9885187617473222,
-        0.8898544427547251,
-        1.0
       ],
-      "eval_loss": 0.009478472173213959,
       "eval_precision": [
-        0.987244436403112,
-        0.9010118785745711,
-        1.0
       ],
       "eval_recall": [
-        0.9897963811165027,
-        0.878969957081545,
-        1.0
-      ],
-      "eval_runtime": 9.3442,
-      "eval_samples_per_second": 75.02,
-      "eval_steps_per_second": 0.856,
-      "step": 180
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.06247434392571449,
-      "learning_rate": 4.600000000000001e-05,
-      "loss": 0.0066,
-      "step": 240
-    },
-    {
-      "epoch": 4.0,
-      "eval_accurracy": {
-        "accuracy": 0.9965321073665085
-      },
-      "eval_f1": [
-        0.9886149728981924,
-        0.8924823302634397,
-        1.0
-      ],
-      "eval_loss": 0.009304543025791645,
-      "eval_precision": [
-        0.988816804282733,
-        0.890765284309534,
-        1.0
-      ],
-      "eval_recall": [
-        0.988413223890073,
-        0.894206008583691,
-        1.0
-      ],
-      "eval_runtime": 9.051,
-      "eval_samples_per_second": 77.45,
-      "eval_steps_per_second": 0.884,
-      "step": 240
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.06775504350662231,
-      "learning_rate": 4.5e-05,
-      "loss": 0.0055,
-      "step": 300
-    },
-    {
-      "epoch": 5.0,
-      "eval_accurracy": {
-        "accuracy": 0.9966460918853385
-      },
-      "eval_f1": [
-        0.9890169552873577,
-        0.8934722984092156,
-        1.0
-      ],
-      "eval_loss": 0.010034682229161263,
-      "eval_precision": [
-        0.9867289593066558,
-        0.9140291806958474,
-        1.0
-      ],
-      "eval_recall": [
-        0.9913155865947123,
-        0.8738197424892704,
-        1.0
-      ],
-      "eval_runtime": 9.0462,
-      "eval_samples_per_second": 77.491,
-      "eval_steps_per_second": 0.884,
-      "step": 300
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.07699564099311829,
-      "learning_rate": 4.4000000000000006e-05,
-      "loss": 0.0046,
-      "step": 360
-    },
-    {
-      "epoch": 6.0,
-      "eval_accurracy": {
-        "accuracy": 0.9964112146950224
-      },
-      "eval_f1": [
-        0.9881879469310263,
-        0.8913520861654293,
-        1.0
-      ],
-      "eval_loss": 0.010619055479764938,
-      "eval_precision": [
-        0.9909254656968923,
-        0.8692637160921884,
-        1.0
-      ],
-      "eval_recall": [
-        0.9854655117681738,
-        0.9145922746781115,
-        1.0
-      ],
-      "eval_runtime": 9.0321,
-      "eval_samples_per_second": 77.612,
-      "eval_steps_per_second": 0.886,
-      "step": 360
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
@@ -219,7 +114,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -233,8 +128,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 8431673465625120.0,
-  "train_batch_size": 100,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.012019365094602108,
+  "best_model_checkpoint": "/projects/users/mgillele/trash/test_segmenter/2025-10-13T18:02:46.689601_BERT_model_paper/models/checkpoint-498",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1494,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.08617644011974335,
       "learning_rate": 4.9e-05,
+      "loss": 0.0243,
+      "step": 498
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": {
+        "accuracy": 0.9797698824124416
       },
       "eval_f1": [
+        0.9887650969010392,
+        0.8985200845665962
       ],
+      "eval_loss": 0.012019365094602108,
       "eval_precision": [
+        0.9864561927890902,
+        0.91792656587473
       ],
       "eval_recall": [
+        0.9910848348348348,
+        0.8799171842650103
       ],
+      "eval_runtime": 4.235,
+      "eval_samples_per_second": 234.946,
+      "eval_steps_per_second": 7.556,
+      "step": 498
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.09689918160438538,
       "learning_rate": 4.8e-05,
+      "loss": 0.0094,
+      "step": 996
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": {
+        "accuracy": 0.9800368075750552
       },
       "eval_f1": [
+        0.9889099607439146,
+        0.9001335301145548
       ],
+      "eval_loss": 0.012484115548431873,
       "eval_precision": [
+        0.9868996993628986,
+        0.9169530355097365
       ],
       "eval_recall": [
+        0.9909284284284284,
+        0.88391994478951
       ],
+      "eval_runtime": 4.179,
+      "eval_samples_per_second": 238.098,
+      "eval_steps_per_second": 7.657,
+      "step": 996
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.2906811535358429,
       "learning_rate": 4.7e-05,
+      "loss": 0.0064,
+      "step": 1494
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": {
+        "accuracy": 0.979011253002908
       },
       "eval_f1": [
+        0.9882948384468332,
+        0.8986078098471987,
+        0.0
       ],
+      "eval_loss": 0.014125695452094078,
       "eval_precision": [
+        0.9901255886970173,
+        0.8844919786096257,
+        0.0
       ],
       "eval_recall": [
+        0.9864708458458459,
+        0.9131815044858523,
+        0.0
+      ],
+      "eval_runtime": 4.1316,
+      "eval_samples_per_second": 240.828,
+      "eval_steps_per_second": 7.745,
+      "step": 1494
     }
   ],
   "logging_steps": 500,
+  "max_steps": 24900,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8436689183872296.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56bcb5fa40f9f9fdb2343dd4f41005e8be349f6799361b66ccb28613cc60f2d4
-size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b3153fba4ac08e8d3b7829313fe860f51174713dfad9dcb0d9c2eab5c19d7f8
+size 5841