Initial release

Browse files

Files changed (4) hide show

README.md +13 -15
config.json +43 -39
model.safetensors +2 -2
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 library_name: transformers
 license: mit
-base_model: roberta-base
 tags:
 - ner
 - bert
@@ -17,16 +17,16 @@ should probably proofread and complete it, then remove this comment. -->
 # NER-BERT
-This model is a fine-tuned version of [roberta-base](https://huggingface.co/roberta-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0006
-- Token Accuracy: 0.9997
-- Token Precision: 0.9997
-- Token Recall: 0.9997
-- Token F1: 0.9997
-- Entity Precision: 0.9980
-- Entity Recall: 0.9996
-- Entity F1: 0.9987
 ## Model description
@@ -49,8 +49,6 @@ The following hyperparameters were used during training:
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
-- gradient_accumulation_steps: 2
-- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
@@ -60,9 +58,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Token Accuracy | Token Precision | Token Recall | Token F1 | Entity Precision | Entity Recall | Entity F1 |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:---------------:|:------------:|:--------:|:----------------:|:-------------:|:---------:|
-| 0.0012        | 1.0   | 1125 | 0.0012          | 0.9995         | 0.9995          | 0.9995       | 0.9995   | 0.9967           | 0.9996        | 0.9981    |
-| 0.0009        | 2.0   | 2250 | 0.0007          | 0.9996         | 0.9996          | 0.9996       | 0.9996   | 0.9973           | 0.9992        | 0.9982    |
-| 0.0005        | 3.0   | 3375 | 0.0006          | 0.9997         | 0.9997          | 0.9997       | 0.9997   | 0.9980           | 0.9996        | 0.9987    |
 ### Framework versions

 ---
 library_name: transformers
 license: mit
+base_model: dslim/bert-base-NER
 tags:
 - ner
 - bert
 # NER-BERT
+This model is a fine-tuned version of [dslim/bert-base-NER](https://huggingface.co/dslim/bert-base-NER) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0000
+- Token Accuracy: 1.0000
+- Token Precision: 1.0000
+- Token Recall: 1.0000
+- Token F1: 1.0000
+- Entity Precision: 0.9999
+- Entity Recall: 0.9999
+- Entity F1: 0.9999
 ## Model description
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
 | Training Loss | Epoch | Step | Validation Loss | Token Accuracy | Token Precision | Token Recall | Token F1 | Entity Precision | Entity Recall | Entity F1 |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:---------------:|:------------:|:--------:|:----------------:|:-------------:|:---------:|
+| 0.0004        | 1.0   | 2250 | 0.0002          | 1.0000         | 1.0000          | 1.0000       | 1.0000   | 0.9995           | 0.9996        | 0.9996    |
+| 0.0003        | 2.0   | 4500 | 0.0001          | 1.0000         | 1.0000          | 1.0000       | 1.0000   | 0.9998           | 0.9999        | 0.9998    |
+| 0.0001        | 3.0   | 6750 | 0.0000          | 1.0000         | 1.0000          | 1.0000       | 1.0000   | 0.9999           | 0.9999        | 0.9999    |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,64 +1,68 @@
 {
   "architectures": [
-    "RobertaForTokenClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
   "classifier_dropout": null,
-  "eos_token_id": 2,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
-    "0": "O",
-    "1": "B-PER",
-    "2": "I-PER",
-    "3": "B-LOC",
     "4": "I-LOC",
-    "5": "B-ORG",
     "6": "I-ORG",
-    "7": "B-NUM",
-    "8": "I-NUM",
-    "9": "B-CRE",
-    "10": "I-CRE",
-    "11": "B-SSN",
-    "12": "I-SSN",
-    "13": "B-URL",
-    "14": "I-URL",
-    "15": "B-MAIL",
-    "16": "I-MAIL"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "B-CRE": 9,
-    "B-LOC": 3,
-    "B-MAIL": 15,
-    "B-NUM": 7,
-    "B-ORG": 5,
-    "B-PER": 1,
-    "B-SSN": 11,
-    "B-URL": 13,
-    "I-CRE": 10,
     "I-LOC": 4,
-    "I-MAIL": 16,
-    "I-NUM": 8,
     "I-ORG": 6,
-    "I-PER": 2,
-    "I-SSN": 12,
-    "I-URL": 14,
-    "O": 0
   },
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
-  "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
   "transformers_version": "4.51.3",
-  "type_vocab_size": 1,
   "use_cache": true,
-  "vocab_size": 50265
 }

 {
+  "_num_labels": 9,
   "architectures": [
+    "BertForTokenClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
+    "0": "B-LOC",
+    "1": "B-MISC",
+    "2": "B-ORG",
+    "3": "B-PER",
     "4": "I-LOC",
+    "5": "I-MISC",
     "6": "I-ORG",
+    "7": "I-PER",
+    "8": "O",
+    "9": "B-NUM",
+    "10": "I-NUM",
+    "11": "B-CRE",
+    "12": "I-CRE",
+    "13": "B-SSN",
+    "14": "I-SSN",
+    "15": "B-URL",
+    "16": "I-URL",
+    "17": "B-MAIL",
+    "18": "I-MAIL"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "B-CRE": 11,
+    "B-LOC": 0,
+    "B-MAIL": 17,
+    "B-MISC": 1,
+    "B-NUM": 9,
+    "B-ORG": 2,
+    "B-PER": 3,
+    "B-SSN": 13,
+    "B-URL": 15,
+    "I-CRE": 12,
     "I-LOC": 4,
+    "I-MAIL": 18,
+    "I-MISC": 5,
+    "I-NUM": 10,
     "I-ORG": 6,
+    "I-PER": 7,
+    "I-SSN": 14,
+    "I-URL": 16,
+    "O": 8
   },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
   "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
   "use_cache": true,
+  "vocab_size": 28996
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:099ebe86b563ff429a6784691be6dd3c2c75982336b897f3a1cda1e0b7b3b436
-size 496296380

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbd90c630ba9afe16efb9a85d4d4189db8e42650b6118914bf29dab918f983cb
+size 430960500

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a82e9f58b78bc9332093e49aaa5be2d79b2299197230bf94b249715d0eaa362f
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a3d8d321f1772225c7f50336b8fc71ea253ff4bcfd456f6bf41e64c27753d7f
 size 5240