# 🤖 Thoth Text Model ## 📘 Overview **Thoth Text** هو نموذج لغوي عربي مبني على **[Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)** تم تدريبه باستخدام تقنية **LoRA (Low-Rank Adaptation)** لتحسين الأداء في فهم النصوص العربية وتوليد إجابات دقيقة في المجالات العامة والتعليمية. --- ## 🧠 Base Model - **Base:** `Qwen/Qwen2.5-7B-Instruct` - **Adapter:** LoRA fine-tuned using **Axolotl** - **Architecture:** Transformer Decoder (Causal LM) - **Precision:** `bfloat16` - **Frameworks:** PyTorch + Transformers + PEFT --- ## 🏋️ Fine-tuning Details - **Library:** [Axolotl](https://github.com/OpenAccess-AI-Collective/axolotl) - **Adapter Type:** LoRA - **Learning Rate:** `2e-4` - **LoRA α:** `16` - **LoRA r:** `8` - **Dropout:** `0.05` - **Batch Size:** `16` - **Epochs:** `1` - **Optimizer:** `adamw_bnb_8bit` - **Sequence Length:** `4096` - **Compute:** RunPod GPU Instance --- ## 📂 Dataset > ⚠️ **Note:** > The dataset used for fine-tuning is **private and locally stored** at > `/workspace/fine-tuning/data/trump.json` > > It follows the **Alpaca-style JSON format**: ```json [ { "instruction": "اشرح لي مفهوم الذكاء الاصطناعي.", "input": "", "output": "الذكاء الاصطناعي هو فرع من علوم الحاسوب يهتم بجعل الأنظمة قادرة على التفكير والتعلم." } ]