Mudasir692
/

bart-urdu-summarizer

Safetensors

mbart

Model card Files Files and versions

xet

Community

Mudasir692 commited on Nov 29, 2024

Commit

a59b78a

verified ·

1 Parent(s): 7212a6d

Update README.md

Browse files

Files changed (1) hide show

README.md +63 -24

README.md CHANGED Viewed

@@ -1,37 +1,79 @@
-tokenizer = MBart50Tokenizer.from_pretrained(checkpoint)
-# Example text
-text = """تعلیم ایک معاشرتی ترقی کا بنیادی عنصر ہے۔ حالیہ برسوں میں مختلف اداروں نے تعلیمی معیار کو بہتر بنانے اور زیادہ بچوں تک تعلیم کی رسائی ممکن بنانے کے لیے مختلف اقدامات کیے ہیں۔ ان اقدامات میں اسکولوں کی تعداد بڑھانا، اساتذہ کی تربیت میں اضافہ کرنا، اور تعلیمی مواد کی دستیابی کو یقینی بنانا شامل ہے۔ ماہرین کا خیال ہے کہ اگر یہ کوششیں مؤثر طریقے سے کی جائیں تو معاشرتی ترقی میں تیزی لائی جا سکتی ہے۔"""
-# Tokenize and generate summary
-inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
-    outputs = summarizer.generate(**inputs)
-# Decode the summary
-summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
-print("summary:", summary)
 Training Details
 Training Data
-The model was fine-tuned on a dataset composed of headline-based examples to focus on generating concise and relevant summaries.
 Training Procedure
-The training procedure included using standard transformer training practices, optimizing the model's performance for generating summaries that preserve essential information.
 Training Hyperparameters
 Training regime: Mixed precision (fp16)
 Evaluation
-The evaluation focused on metrics such as ROUGE to measure the quality of summaries in terms of relevance and conciseness.
-Environmental Impact
-Hardware Type: Cloud-based GPUs (e.g., NVIDIA V100)
-Hours used: Approximately [Enter Number] hours
-Cloud Provider: [Enter Cloud Provider]
-Carbon Emitted: Estimated using the Machine Learning Impact calculator.
-Citation
-BibTeX:
-bash
 Copy code
 @model{mudasir692_bart_urdu_summarizer,
   author = {Mudasir},
@@ -39,7 +81,4 @@ Copy code
   year = {2024},
   url = {https://huggingface.co/Mudasir692/bart-urdu-summarizer}
 }
-APA: Mudasir. (2024). Bart-Urdu-Summarizer. Retrieved from Hugging Face Model Page Link.
-Model Card Contact
-For questions or collaborations, please contact mirmudasir692@gmail.com.

+Model Card for Bart Urdu Summarizer
+This model is designed to summarize Urdu text using the BART architecture, fine-tuned on a custom Urdu summarization dataset.
+Model Details
+Model Description
+This model leverages the BART (Bidirectional and Auto-Regressive Transformers) architecture to perform Urdu text summarization. The model was fine-tuned on a headline-based Urdu dataset to generate concise and meaningful summaries. It is well-suited for tasks like news summarization, article summarization, and extracting key points from long texts.
+Developed by: Mudasir692
+Model type: BART
+Language(s) (NLP): Urdu
+License: MIT
+Finetuned from model: facebook/bart-large
+Model Sources
+Repository: https://huggingface.co/Mudasir692/bart-urdu-summarizer
+Uses
+Direct Use
+This model is intended for generating concise summaries of Urdu text directly from input data.
+Downstream Use
+The model can be fine-tuned further for specific tasks involving Urdu summarization or adapted for multilingual summarization tasks.
+Out-of-Scope Use
+The model may not perform well on highly specialized domains or technical documents without additional fine-tuning. It is not suitable for generating summaries of text in languages other than Urdu.
+Bias, Risks, and Limitations
+The model may inherit biases from the training data, particularly in topics and vocabulary frequently represented in the dataset. The summaries may occasionally miss critical context or introduce ambiguities.
+Recommendations
+Users should validate the summaries in sensitive applications and consider fine-tuning or additional post-processing for domain-specific requirements.
+How to Get Started with the Model
+To get started with the model, use the following code snippet to load the model and tokenizer, input Urdu text, and generate concise summaries.
+python
+Copy code
+import torch
+from transformers import MBartForConditionalGeneration, MBart50Tokenizer
+# Load the tokenizer and model
+tokenizer = MBart50Tokenizer.from_pretrained("Mudasir692/bart-urdu-summarizer")
+model = MBartForConditionalGeneration.from_pretrained("Mudasir692/bart-urdu-summarizer")
+# Example input text (Urdu)
+input_text = """
+تعلیم ایک معاشرتی ترقی کا بنیادی عنصر ہے۔ حالیہ برسوں میں مختلف اداروں نے تعلیمی معیار کو بہتر بنانے اور زیادہ بچوں تک تعلیم کی رسائی ممکن بنانے کے لیے مختلف اقدامات کیے ہیں۔
+ان اقدامات میں اسکولوں کی تعداد بڑھانا، اساتذہ کی تربیت میں اضافہ کرنا، اور تعلیمی مواد کی دستیابی کو یقینی بنانا شامل ہے۔ ماہرین کا خیال ہے کہ اگر یہ کوششیں مؤثر طریقے سے کی جائیں تو معاشرتی ترقی میں تیزی لائی جا سکتی ہے۔
+"""
+# Tokenize the input text
+inputs = tokenizer(input_text, return_tensors="pt")
+# Generate the summary
 with torch.no_grad():
+    outputs = model.generate(**inputs)
+# Decode the summary and print the result
+summary_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print("Summary (Urdu):", summary_text)
 Training Details
 Training Data
+The model was fine-tuned on a custom dataset of Urdu text paired with concise summaries, focusing on headline-based examples. The dataset included a variety of topics to improve the generalization capabilities of the model.
 Training Procedure
+The model was fine-tuned using techniques like mixed precision to optimize training efficiency and performance.
 Training Hyperparameters
 Training regime: Mixed precision (fp16)
+Maximum sequence length: 512
+Batch size: 2
+accumulation_steps = 8
+Learning rate: 3e-5
 Evaluation
+The model's performance was evaluated using ROUGE metrics, which showed strong alignment between the generated summaries and reference summaries in the dataset.
+bibtex
 Copy code
 @model{mudasir692_bart_urdu_summarizer,
   author = {Mudasir},
   year = {2024},
   url = {https://huggingface.co/Mudasir692/bart-urdu-summarizer}
 }
+APA: Mudasir. (2024). Bart-Urdu-Summarizer. Retrieved from https://huggingface.co/Mudasir692/bart-urdu-summarizer.