oddadmix
/

arabic-summarization

@@ -11,50 +11,58 @@ datasets:
 - oddadmix/arabic-news-summarization
 ---
-# Model Card for lfm2-sft-summary
-This model is a fine-tuned version of [LiquidAI/LFM2-350M](https://huggingface.co/LiquidAI/LFM2-350M).
-It has been trained using [TRL](https://github.com/huggingface/trl).
-## Quick start
-```python
-from transformers import pipeline
-question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
-generator = pipeline("text-generation", model="oddadmix/lfm2-sft-summary", device="cuda")
-output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
-print(output["generated_text"])
-```
-## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/ahmed-m-wasfy/huggingface/runs/b36pzqd7)
-This model was trained with SFT.
-### Framework versions
-- TRL: 0.20.0
-- Transformers: 4.54.1
-- Pytorch: 2.2.0
-- Datasets: 4.0.0
-- Tokenizers: 0.21.4
-## Citations
-Cite TRL as:
-```bibtex
-@misc{vonwerra2022trl,
-	title        = {{TRL: Transformer Reinforcement Learning}},
-	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
-	year         = 2020,
-	journal      = {GitHub repository},
-	publisher    = {GitHub},
-	howpublished = {\url{https://github.com/huggingface/trl}}
-}
-```

 - oddadmix/arabic-news-summarization
 ---
+# 📝 نموذج التلخيص العربي
+هذا المشروع يقدّم نموذج **تلخيص نصوص باللغة العربية** مبني على النموذج الأساسي [LiquidAI/LFM2-350M](https://huggingface.co/LiquidAI/LFM2-350M)، وتمت إعادة تدريبه (Fine-tuning) على **مجموعة بيانات مكوّنة من 17,000 سجل** لتلخيص النصوص بدقة وكفاءة عالية.
+---
+## ⚡ المميزات
+* ✅ أداء قوي جدًا في تلخيص النصوص العربية.
+* ✅ يحافظ على المعنى العام للنص مع اختصار الحجم.
+* ✅ يمكن استخدامه في تلخيص المقالات، الأخبار، الأبحاث، والمستندات الطويلة.
+* ✅ مبني على نموذج قوي مفتوح المصدر مع إعادة ضبط دقيقة (Fine-tuning).
+---
+## 🛠️ البيانات
+تم تدريب النموذج باستخدام **17,000 صف** من البيانات عالية الجودة التي تحتوي على نصوص عربية وأهداف التلخيص المقابلة لها.
+هذا ساعد في تحسين دقة النموذج وجعله قادرًا على إنتاج **ملخصات متماسكة وسلسة**.
+---
+## 🚀 كيفية الاستخدام
+```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+# تحميل النموذج والمحول
+model_name = "اسم-المستخدم/arabic-summarization-model"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+# إدخال نص للتلخيص
+text = """النص العربي المراد تلخيصه ..."""
+inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True)
+summary_ids = model.generate(inputs["input_ids"], max_length=150, min_length=40, length_penalty=2.0, num_beams=4)
+# عرض الملخص
+print(tokenizer.decode(summary_ids[0], skip_special_tokens=True))
+```
+---
+## 📊 الأداء
+النموذج أظهر نتائج ممتازة في التجارب الداخلية على مقاييس **الدقة، التماسك، والمحافظة على المعنى**.
+أداؤه يُعتبر **جيد جدًا مقارنة بالنماذج المشابهة** في مجال تلخيص النصوص العربية.
+---
+## 📌 ملاحظات
+* النموذج ما زال قابلًا للتطوير عبر تدريبه على بيانات إضافية.
+* يُفضّل استخدامه مع نصوص عربية فصيحة، مع أنه يعمل بشكل جيد أيضًا مع بعض اللهجات.