Ambareeshkumar commited on
Commit
0329da1
·
1 Parent(s): 973a60b

Add README.md

Browse files
Files changed (1) hide show
  1. README.md +19 -16
README.md CHANGED
@@ -1,23 +1,24 @@
1
  ---
2
- language: bn
3
  datasets:
4
  - wikiann
5
  examples:
6
  widget:
7
- - text: "মারভিন দি মারসিয়ান"
8
  example_title: "Sentence_1"
9
- - text: "লিওনার্দো দা ভিঞ্চি"
10
  example_title: "Sentence_2"
11
- - text: "বসনিয়া হার্জেগোভিনা"
12
  example_title: "Sentence_3"
13
- - text: "সাউথ ইস্ট ইউনিভার্সিটি"
14
  example_title: "Sentence_4"
15
- - text: "মানিক বন্দ্যোপাধ্যায় লেখক"
16
  example_title: "Sentence_5"
 
17
  ---
18
 
19
- <h1>Bengali Named Entity Recognition</h1>
20
- Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER on Bengali language.
21
 
22
 
23
  ## Label ID and its corresponding label name
@@ -34,20 +35,22 @@ Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER o
34
 
35
  <h1>Results</h1>
36
 
37
- | Name | Overall F1 | LOC F1 | ORG F1 | PER F1 |
38
- | ---- | -------- | ----- | ---- | ---- |
39
- | Train set | 0.997927 | 0.998246 | 0.996613 | 0.998769 |
40
- | Validation set | 0.970187 | 0.969212 | 0.956831 | 0.982079 |
41
- | Test set | 0.9673011 | 0.967120 | 0.963614 | 0.970938 |
 
 
42
 
43
  Example
44
  ```py
45
  from transformers import AutoTokenizer, AutoModelForTokenClassification
46
  from transformers import pipeline
47
- tokenizer = AutoTokenizer.from_pretrained("Suchandra/bengali_language_NER")
48
- model = AutoModelForTokenClassification.from_pretrained("Suchandra/bengali_language_NER")
49
  nlp = pipeline("ner", model=model, tokenizer=tokenizer)
50
- example = "মারভিন দি মারসিয়ান"
51
  ner_results = nlp(example)
52
  ner_results
53
  ```
 
1
  ---
2
+ language: ta
3
  datasets:
4
  - wikiann
5
  examples:
6
  widget:
7
+ - text: "இந்திய"
8
  example_title: "Sentence_1"
9
+ - text: "இந்தியா வளர்ந்து வரும் வல்லரசு"
10
  example_title: "Sentence_2"
11
+ - text: "2050ல் இந்தியா உலகின் மிகப்பெரிய பொருளாதார நாடாக மாறும்"
12
  example_title: "Sentence_3"
13
+ - text: "உலக அரங்கில் ரஷ்யா - உக்ரைன் மோதலில் இந்தியாவின் நிலைப்பாட்டை வெளியுறவு அமைச்சர் தெளிவாக எடுத்துரைத்துள்ளார்."
14
  example_title: "Sentence_4"
15
+ - text: "ஜி20 நாடுகளின் தலைவர் பதவி இந்திய பிரதமர் நரேந்திர மோடியிடம் ஒப்படைக்கப்பட்டுள்ளது"
16
  example_title: "Sentence_5"
17
+ - text: "ரஷ்யாவிடம் இருந்து எண்ணெய் வாங்க வேண்டாம் என ஐரோப்பிய நாடுகளுக்கு ஐரோப்பிய ஒன்றியம் அறிவுறுத்தியுள்ளது"
18
  ---
19
 
20
+ <h1>Tamil Named Entity Recognition</h1>
21
+ Fine-tuning bert-base-multilingual-cased on Wikiann dataset for performing NER on Tamil language.
22
 
23
 
24
  ## Label ID and its corresponding label name
 
35
 
36
  <h1>Results</h1>
37
 
38
+ Step Training Loss Validation Loss Overall Precision Overall Recall Overall F1 Overall Accuracy Loc F1 Org F1 Per F1
39
+ 1000 0.386900 0.300006 0.833469 0.824748 0.829086 0.912857 0.835343 0.781625 0.867752
40
+ 2000 0.210200 0.251389 0.845455 0.842052 0.843750 0.924861 0.851711 0.790198 0.886515
41
+ 3000 0.140000 0.264964 0.866952 0.856137 0.861510 0.930141 0.874872 0.818150 0.885203
42
+ 4000 0.095400 0.298542 0.860871 0.882696 0.871647 0.935692 0.881348 0.829285 0.899245
43
+ 5000 0.062200 0.296011 0.871805 0.878471 0.875125 0.938806 0.875434 0.850889 0.898148
44
+ 6000 0.042200 0.320418 0.868416 0.879074 0.873713 0.937497 0.877588 0.833611 0.907737
45
 
46
  Example
47
  ```py
48
  from transformers import AutoTokenizer, AutoModelForTokenClassification
49
  from transformers import pipeline
50
+ tokenizer = AutoTokenizer.from_pretrained("Ambareeshkumar/fine_tune_bert_output")
51
+ model = AutoModelForTokenClassification.from_pretrained("Ambareeshkumar/fine_tune_bert_output")
52
  nlp = pipeline("ner", model=model, tokenizer=tokenizer)
53
+ example = "இந்திய"
54
  ner_results = nlp(example)
55
  ner_results
56
  ```