MoAmini77
/

bert-finetuned-ner

Token Classification

Model card Files Files and versions

Metrics Training metrics Community

bert-finetuned-ner / README.md

MoAmini77's picture

Update README.md

96edf7f verified 5 months ago

|

history blame contribute delete

2.93 kB

	---
	library_name: transformers
	base_model: HooshvareLab/bert-base-parsbert-uncased
	tags:
	- ner
	- persian
	- fine-tuned
	- transformers
	model-index:
	- name: bert-finetuned-ner
	results: []
	---

	# bert-finetuned-ner

	This model is a fine-tuned Persian BERT model based on [HooshvareLab/bert-base-parsbert-uncased](https://huggingface.co/HooshvareLab/bert-base-parsbert-uncased) for Named Entity Recognition (NER). It has been trained to identify entities such as persons, organizations, locations, and products in Persian text.

	## Model Description

	`bert-finetuned-ner` is designed for token-level classification in Persian. The model uses ParsBERT, a BERT variant pretrained on a large Persian corpus, as the base model and is fine-tuned on a wnut2017-persian dataset. It can predict entity labels for each token in input text, supporting tasks such as text analysis, information extraction, and question answering pipelines.

	## Intended Uses & Limitations

	### Intended Uses

	- Named Entity Recognition (NER) in Persian text.
	- Information extraction for NLP pipelines in Persian language applications.
	- Academic research or industrial projects requiring entity tagging.

	### Limitations

	- Performance depends heavily on the coverage and quality of the training data. Entities not represented in the dataset may not be recognized.
	- The model may misclassify rare or out-of-vocabulary words.
	- For critical applications, manual verification of predictions is recommended.
	- Trained on formal text; performance on dialects or colloquial Persian may vary.

	## Training and Evaluation Data

	- Dataset: ('Amir13/wnut2017-persian')
	- Entities annotated include: persons, organizations, locations, creative works, and products.
	- Tokenization handled using ParsBERT tokenizer (`HooshvareLab/bert-base-parsbert-uncased`).

	## Training Procedure

	### Training Hyperparameters

	- Learning rate: 2e-5
	- Train batch size: 8
	- Evaluation batch size: 8
	- Optimizer: `AdamW` (betas=(0.9, 0.999), epsilon=1e-8)
	- Learning rate scheduler: linear
	- Number of epochs: 10
	- Seed: 42

	### Training Environment

	- Framework: Transformers 4.56.1
	- PyTorch 2.8.0+cu126
	- Datasets 4.0.0
	- Tokenizers 0.22.0

	### Training Results

	- The model achieved training loss of ~0.13 (averaged over all epochs).
	- Accuracy, F1, precision, and recall metrics are recommended to be computed on a held-out test set for full evaluation.

	## How to Use

	```python
	from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

	model_path = "path_to_saved_model"

	tokenizer = AutoTokenizer.from_pretrained(model_path)
	model = AutoModelForTokenClassification.from_pretrained(model_path)

	ner_pipeline = pipeline(
	"ner",
	model=model,
	tokenizer=tokenizer,
	aggregation_strategy="simple"
	)

	text = "سلام. در تهران زندگی میکنم."
	results = ner_pipeline(text)
	print(results)