Kowsher
/

bangla-bert

@@ -11,18 +11,18 @@ datasets:
 - BanglaLM dataset
 ---
 # Bangla BERT Base
-Here we published a pretrained Bangla bert language model as **bert-base-bangla**! which is now available in huggingface model hub.
 Here we described [bert-base-bangla](https://github.com/Kowsher/bert-base-bangla) which is a pretrained Bangla language model based on mask language modeling described in [BERT](https://arxiv.org/abs/1810.04805) and the GitHub  [repository](https://github.com/google-research/bert)
 ##  Corpus Details
 We trained the Bangla bert language model using BanglaLM dataset from kaggle [BanglaLM](https://www.kaggle.com/gakowsher/bangla-language-model-dataset). There is 3 version of dataset which is almost 40GB.
 After downloading the dataset, we went on the way to mask LM.
-**Bangla Base BERT Tokenizer**
 ```py
 from transformers import AutoTokenizer, AutoModel
-bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bert-base-bangla")
 text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
 bnbert_tokenizer.tokenize(text)
 # output: ['খাটি', 'সে', '##ানার', 'চাইতে', 'খাটি', 'আমার', 'দেশের', 'মাটি']
@@ -31,8 +31,8 @@ bnbert_tokenizer.tokenize(text)
 here, we can use bert base bangla model as for masked language modeling:
 ```py
 from transformers import BertForMaskedLM, BertTokenizer, pipeline
-model = BertForMaskedLM.from_pretrained("Kowsher/bert-base-bangla")
-tokenizer = BertTokenizer.from_pretrained("Kowsher/bert-base-bangla")
 nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
 for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):

 - BanglaLM dataset
 ---
 # Bangla BERT Base
+Here we published a pretrained Bangla bert language model as **bangla-bert**! which is now available in huggingface model hub.
 Here we described [bert-base-bangla](https://github.com/Kowsher/bert-base-bangla) which is a pretrained Bangla language model based on mask language modeling described in [BERT](https://arxiv.org/abs/1810.04805) and the GitHub  [repository](https://github.com/google-research/bert)
 ##  Corpus Details
 We trained the Bangla bert language model using BanglaLM dataset from kaggle [BanglaLM](https://www.kaggle.com/gakowsher/bangla-language-model-dataset). There is 3 version of dataset which is almost 40GB.
 After downloading the dataset, we went on the way to mask LM.
+**bangla-bert Tokenizer**
 ```py
 from transformers import AutoTokenizer, AutoModel
+bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bangla-bert")
 text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
 bnbert_tokenizer.tokenize(text)
 # output: ['খাটি', 'সে', '##ানার', 'চাইতে', 'খাটি', 'আমার', 'দেশের', 'মাটি']
 here, we can use bert base bangla model as for masked language modeling:
 ```py
 from transformers import BertForMaskedLM, BertTokenizer, pipeline
+model = BertForMaskedLM.from_pretrained("Kowsher/bangla-bert")
+tokenizer = BertTokenizer.from_pretrained("Kowsher/bangla-bert")
 nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
 for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):