Commit ·
0329da1
1
Parent(s): 973a60b
Add README.md
Browse files
README.md
CHANGED
|
@@ -1,23 +1,24 @@
|
|
| 1 |
---
|
| 2 |
-
language:
|
| 3 |
datasets:
|
| 4 |
- wikiann
|
| 5 |
examples:
|
| 6 |
widget:
|
| 7 |
-
- text: "
|
| 8 |
example_title: "Sentence_1"
|
| 9 |
-
- text: "
|
| 10 |
example_title: "Sentence_2"
|
| 11 |
-
- text: "
|
| 12 |
example_title: "Sentence_3"
|
| 13 |
-
- text: "
|
| 14 |
example_title: "Sentence_4"
|
| 15 |
-
- text: "
|
| 16 |
example_title: "Sentence_5"
|
|
|
|
| 17 |
---
|
| 18 |
|
| 19 |
-
<h1>
|
| 20 |
-
Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER on
|
| 21 |
|
| 22 |
|
| 23 |
## Label ID and its corresponding label name
|
|
@@ -34,20 +35,22 @@ Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER o
|
|
| 34 |
|
| 35 |
<h1>Results</h1>
|
| 36 |
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
|
|
|
|
|
|
| 42 |
|
| 43 |
Example
|
| 44 |
```py
|
| 45 |
from transformers import AutoTokenizer, AutoModelForTokenClassification
|
| 46 |
from transformers import pipeline
|
| 47 |
-
tokenizer = AutoTokenizer.from_pretrained("
|
| 48 |
-
model = AutoModelForTokenClassification.from_pretrained("
|
| 49 |
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
|
| 50 |
-
example = "
|
| 51 |
ner_results = nlp(example)
|
| 52 |
ner_results
|
| 53 |
```
|
|
|
|
| 1 |
---
|
| 2 |
+
language: ta
|
| 3 |
datasets:
|
| 4 |
- wikiann
|
| 5 |
examples:
|
| 6 |
widget:
|
| 7 |
+
- text: "இந்திய"
|
| 8 |
example_title: "Sentence_1"
|
| 9 |
+
- text: "இந்தியா வளர்ந்து வரும் வல்லரசு"
|
| 10 |
example_title: "Sentence_2"
|
| 11 |
+
- text: "2050ல் இந்தியா உலகின் மிகப்பெரிய பொருளாதார நாடாக மாறும்"
|
| 12 |
example_title: "Sentence_3"
|
| 13 |
+
- text: "உலக அரங்கில் ரஷ்யா - உக்ரைன் மோதலில் இந்தியாவின் நிலைப்பாட்டை வெளியுறவு அமைச்சர் தெளிவாக எடுத்துரைத்துள்ளார்."
|
| 14 |
example_title: "Sentence_4"
|
| 15 |
+
- text: "ஜி20 நாடுகளின் தலைவர் பதவி இந்திய பிரதமர் நரேந்திர மோடியிடம் ஒப்படைக்கப்பட்டுள்ளது"
|
| 16 |
example_title: "Sentence_5"
|
| 17 |
+
- text: "ரஷ்யாவிடம் இருந்து எண்ணெய் வாங்க வேண்டாம் என ஐரோப்பிய நாடுகளுக்கு ஐரோப்பிய ஒன்றியம் அறிவுறுத்தியுள்ளது"
|
| 18 |
---
|
| 19 |
|
| 20 |
+
<h1>Tamil Named Entity Recognition</h1>
|
| 21 |
+
Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER on Tamil language.
|
| 22 |
|
| 23 |
|
| 24 |
## Label ID and its corresponding label name
|
|
|
|
| 35 |
|
| 36 |
<h1>Results</h1>
|
| 37 |
|
| 38 |
+
Step Training Loss Validation Loss Overall Precision Overall Recall Overall F1 Overall Accuracy Loc F1 Org F1 Per F1
|
| 39 |
+
1000 0.386900 0.300006 0.833469 0.824748 0.829086 0.912857 0.835343 0.781625 0.867752
|
| 40 |
+
2000 0.210200 0.251389 0.845455 0.842052 0.843750 0.924861 0.851711 0.790198 0.886515
|
| 41 |
+
3000 0.140000 0.264964 0.866952 0.856137 0.861510 0.930141 0.874872 0.818150 0.885203
|
| 42 |
+
4000 0.095400 0.298542 0.860871 0.882696 0.871647 0.935692 0.881348 0.829285 0.899245
|
| 43 |
+
5000 0.062200 0.296011 0.871805 0.878471 0.875125 0.938806 0.875434 0.850889 0.898148
|
| 44 |
+
6000 0.042200 0.320418 0.868416 0.879074 0.873713 0.937497 0.877588 0.833611 0.907737
|
| 45 |
|
| 46 |
Example
|
| 47 |
```py
|
| 48 |
from transformers import AutoTokenizer, AutoModelForTokenClassification
|
| 49 |
from transformers import pipeline
|
| 50 |
+
tokenizer = AutoTokenizer.from_pretrained("Ambareeshkumar/fine_tune_bert_output")
|
| 51 |
+
model = AutoModelForTokenClassification.from_pretrained("Ambareeshkumar/fine_tune_bert_output")
|
| 52 |
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
|
| 53 |
+
example = "இந்திய"
|
| 54 |
ner_results = nlp(example)
|
| 55 |
ner_results
|
| 56 |
```
|