YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
pretty_name: Egytronic 16-bit language: - ar - en tags: - text-generation - egyptian-arabic - llm - fine-tuned - arabic - llama - instruction-tuned license: llama-2
Egytronic 16-bit: Egypt's First Fine-Tuned LLM for Egyptian Arabic
اسم النموذج وملخصه (Model Name & Summary)
Egytronic 16-bit هو أول نموذج لغوي كبير (LLM) مصري مضبوط بدقة على Hugging Face، مصمم خصيصًا لفهم وتوليد اللغة العربية المصرية. يعتمد على LLaMA 3.1 8B، ويستفيد من بيانات ثقافية ولغوية وقانونية عميقة لتقديم استجابات دقيقة وذات صلة بالسياق المصري ومنطقة الشرق الأوسط وشمال إفريقيا.
Egytronic 16-bit is Egypt's first fine-tuned Large Language Model (LLM) on Hugging Face, specifically designed to understand and generate Egyptian Arabic. Built on LLaMA 3.1 8B, it leverages deep cultural, linguistic, and legal data to provide nuanced and contextually relevant responses for the Egyptian and MENA region.
جدول المحتويات (Table of Contents)
- تفاصيل النموذج (Model Details)
- مصادر النموذج (Model Sources)
- الاستخدامات (Uses)
- التحيز والمخاطر والقيود (Bias, Risks, and Limitations)
- تفاصيل التدريب (Training Details)
- التقييم (Evaluation)
- التأثير البيئي (Environmental Impact)
- المواصفات الفنية (Technical Specifications)
- الاستشهاد (Citation)
- مسرد المصطلحات (Glossary)
- مزيد من المعلومات (More Information)
- مؤلفو صفحة النموذج (Model Card Authors)
- جهة الاتصال لصفحة النموذج (Model Card Contact)
- كيف تبدأ استخدام النموذج (How to Get Started with the Model)
تفاصيل النموذج (Model Details)
وصف النموذج (Model Description)
Egytronic 16-bit هو نموذج لغوي كبير (LLM) متطور تم تطويره بواسطة Egytronic، وهو فريق مصري من المبرمجين المبدعين. تم ضبطه بدقة من النموذج الأساسي LLaMA 3.1 8B، وتم تصميمه خصيصًا للهجة المصرية والفروق الثقافية الدقيقة. يهدف هذا النموذج إلى تقديم استجابات عالية الدقة وذات صلة بالسياق لمختلف التطبيقات في مصر ومنطقة الشرق الأوسط وشمال إفريقيا.
Egytronic 16-bit is a state-of-the-art Large Language Model (LLM) developed by Egytronic, an Egyptian team of vibe coders. It is fine-tuned from the LLaMA 3.1 8B base model, specifically tailored for the Egyptian dialect and cultural nuances. This model aims to provide highly accurate and contextually relevant responses for various applications in Egypt and the MENA region.
- تم التطوير بواسطة (Developed by): فريق Egytronic (يوسف خميس، أحمد)
- تم التمويل بواسطة (Funded by): Egytronic
- تمت المشاركة بواسطة (Shared by): YousefKhamis
- نوع النموذج (Model type): نموذج لغوي كبير مضبوط بدقة (Fine-tuned Large Language Model)
- اللغات (Language(s)): العربية المصرية، العربية الفصحى الحديثة، الإنجليزية
- الترخيص (License): رخصة مجتمع LLaMA (أوزان مفتوحة - مجاني للتنزيل والنشر)
- تم الضبط من النموذج (Finetuned From Model): LLaMA 3.1 8B
مصادر النموذج (Model Sources)
- المستودع (Repository): https://huggingface.co/YousefKhamis/Egytronic_1.0
- ورقة بحثية (Paper): (سيتم إضافتها عند النشر)
- عرض توضيحي (Demo): (سيتم إضافته عند توفره)
الاستخدامات (Uses)
الاستخدام المباشر (Direct Use)
يمكن استخدام Egytronic 16-bit مباشرة لمختلف مهام معالجة اللغة الطبيعية باللغة العربية المصرية، بما في ذلك على سبيل المثال لا الحصر: روبوتات الدردشة، توليد المحتوى، تحليل المشاعر، تلخيص النصوص، والإجابة على الأسئلة. يضمن ضبطه الدقيق على البيانات المحلية ملاءمة ودقة عالية للسياقات الإقليمية.
Egytronic 16-bit can be directly used for various natural language processing tasks in Egyptian Arabic, including but not limited to: chatbots, content generation, sentiment analysis, text summarization, and question answering. Its fine-tuning on local data ensures high relevance and accuracy for regional contexts.
الاستخدامات الثانوية (Downstream Use)
يمكن أن يكون هذا النموذج أساسًا قويًا لبناء تطبيقات ذكاء اصطناعي أكثر تخصصًا. يمكن ضبطه بدقة أكبر لقطاعات صناعية محددة (مثل التكنولوجيا القانونية، التكنولوجيا التعليمية، خدمة العملاء) أو دمجه في أنظمة أكبر تتطلب قدرات قوية في فهم وتوليد اللغة العربية المصرية.
This model can serve as a powerful foundation for building more specialized AI applications. It can be further fine-tuned for specific industry verticals (e.g., legal tech, edtech, customer service) or integrated into larger systems requiring robust Egyptian Arabic language understanding and generation capabilities.
الاستخدامات خارج النطاق (Out-of-Scope Use)
النموذج غير مخصص للاستخدام في أنظمة اتخاذ القرار الحرجة بدون إشراف بشري، أو التشخيص الطبي، أو أي تطبيق تكون فيه الدقة الواقعية ذات أهمية قصوى بدون تحقق خارجي. لا ينبغي استخدامه لتوليد محتوى ضار أو متحيز أو غير قانوني.
The model is not intended for use in critical decision-making systems without human oversight, medical diagnosis, or any application where factual accuracy is paramount without external validation. It should not be used to generate harmful, biased, or illegal content.
التحيز والمخاطر والقيود (Bias, Risks, and Limitations)
على الرغم من الجهود المبذولة للتخفيف من التحيز من خلال بيانات التدريب المتنوعة، قد يظل النموذج يعكس التحيزات الموجودة في البيانات الأساسية. تشمل المخاطر المحتملة توليد محتوى غير دقيق أو غير حساس ثقافيًا إذا لم يتم توجيهه أو تصفيته بشكل صحيح. تشمل القيود تاريخ قطع المعرفة الحالي (بناءً على بيانات تدريب LLaMA 3.1) وإمكانية الهلوسة، وهي سمة شائعة في جميع النماذج اللغوية الكبيرة.
While efforts have been made to mitigate bias through diverse training data, the model may still reflect biases present in the underlying data. Potential risks include generating inaccurate or culturally insensitive content if not properly prompted or filtered. Limitations include its current knowledge cutoff (based on LLaMA 3.1 training data) and potential for hallucination, common in all LLMs.
التوصيات (Recommendations)
تطبيق آليات قوية للمعالجة اللاحقة والتصفية للتطبيقات الحساسة. إجراء مراقبة مستمرة ومراجعة بشرية للمحتوى الذي يتم إنشاؤه. تشجيع المستخدمين على الإبلاغ عن أي حالات تحيز أو مخرجات غير مناسبة لتحسين النموذج بشكل مستمر.
Implement robust post-processing and filtering mechanisms for sensitive applications. Conduct continuous monitoring and human review of generated content. Encourage users to report any instances of bias or inappropriate outputs for ongoing model improvement.
تفاصيل التدريب (Training Details)
بيانات التدريب (Training Data)
تم ضبط النموذج بدقة على مجموعة بيانات خاصة تتكون من أكثر من 40 جيجابايت من النصوص باللهجة المصرية، ومجموعة من النصوص القانونية المدنية والعمالية المصرية، ومحتوى متنوع من وسائل التواصل الاجتماعي، بالإضافة إلى جزء كبير من نصوص اللغة العربية الفصحى. يضمن هذا المزيج الفريد فهمًا عميقًا للسياقات اللغوية والثقافية المصرية.
The model was fine-tuned on a proprietary dataset comprising over 40GB of Egyptian dialect text, Egyptian civil and labor law corpus, and diverse social media content, alongside a significant portion of Modern Standard Arabic texts. This unique blend ensures a deep understanding of Egyptian linguistic and cultural contexts.
إجراءات التدريب (Training Procedure)
- المعالجة المسبقة (Preprocessing): تم إجراء تنظيف للبيانات، وتقسيمها إلى رموز (tokenization)، وتنسيقها لتحسين أداء هندسة LLaMA. تم إيلاء اهتمام خاص للتعامل مع خصوصيات اللغة العربية المصرية.
- السرعات، الأحجام، الأوقات (Speeds, Sizes, Times): تم استخدام Unsloth لضبط دقيق أسرع بمرتين. (تفاصيل محددة عن الأوقات والأحجام سيتم إضافتها عند توفرها).
التقييم (Evaluation)
بيانات الاختبار، العوامل والمقاييس (Testing Data, Factors & Metrics)
- بيانات الاختبار (Testing Data): تم التقييم على مجموعة اختبار منفصلة من الحوارات المصرية، والاستفسارات القانونية، والمطالبات المحادثة العامة.
- العوامل (Factors): الطلاقة في اللغة العربية المصرية، الفهم السياقي، الالتزام بالفروق القانونية الدقيقة، والاتساق العام.
- المقاييس (Metrics): BLEU، ROUGE، والتقييم البشري للملاءمة والأصالة الثقافية.
النتائج (Results)
- ملخص (Summary): تظهر التقييمات الأولية أداءً فائقًا في فهم وتوليد اللغة العربية المصرية مقارنة بالنماذج اللغوية العربية العامة. يظهر النموذج قدرات قوية في السياقات القانونية والاجتماعية الخاصة بمصر.
التأثير البيئي (Environmental Impact)
- نوع الأجهزة (Hardware Type): (سيتم التحديد لاحقًا)
- ساعات الاستخدام (Hours used): (سيتم التحديد لاحقًا)
- مزود الخدمة السحابية (Cloud Provider): (سيتم التحديد لاحقًا)
- منطقة الحوسبة (Compute Region): (سيتم التحديد لاحقًا)
- الكربون المنبعث (Carbon Emitted): (سيتم التحديد لاحقًا)
المواصفات الفنية (Technical Specifications)
هندسة النموذج والهدف (Model Architecture and Objective)
يعتمد Egytronic 16-bit على هندسة المحول (Transformer) من نوع Decoder-only لنموذج LLaMA 3.1 8B. هدفه الأساسي هو توفير نموذج لغوي عالي الدقة وواعٍ ثقافيًا للغة العربية المصرية، مما يسهل تطبيقات معالجة اللغة الطبيعية المتقدمة.
Egytronic 16-bit is based on the decoder-only transformer architecture of LLaMA 3.1 8B. Its primary objective is to provide a highly accurate and culturally aware language model for Egyptian Arabic, facilitating advanced NLP applications.
البنية التحتية للحوسبة (Compute Infrastructure)
- الأجهزة (Hardware): (سيتم التحديد لاحقًا)
- البرمجيات (Software): PyTorch, Hugging Face Transformers, Unsloth.
الاستشهاد (Citation)
BibTeX
@misc{egytronic16bit,
author = {Khamis, Yousef and Ahmed, [Co-Founder Name]},
title = {Egytronic 16-bit: Egypt's First Fine-Tuned LLM for Egyptian Arabic},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{https://huggingface.co/YousefKhamis/Egytronic_1.0}}
}
APA
Khamis, Y., & [Co-Founder Name], A. (2026). Egytronic 16-bit: Egypt's First Fine-Tuned LLM for Egyptian Arabic [Computer software]. Hugging Face Model Hub. Retrieved from https://huggingface.co/YousefKhamis/Egytronic_1.0
مسرد المصطلحات (Glossary)
- LLM: Large Language Model (نموذج لغوي كبير)
- Fine-tuning: The process of adapting a pre-trained language model to a specific task or dataset (الضبط الدقيق: عملية تكييف نموذج لغوي مدرب مسبقًا لمهمة أو مجموعة بيانات محددة).
- GGUF: A file format for storing and distributing large language models, optimized for CPU inference (تنسيق ملف لتخزين وتوزيع النماذج اللغوية الكبيرة، محسّن للاستدلال على وحدة المعالجة المركزية).
- Hugging Face: A platform and community for machine learning, providing tools, models, and datasets (منصة ومجتمع للتعلم الآلي، توفر الأدوات والنماذج ومجموعات البيانات).
مزيد من المعلومات (More Information)
مؤلفو صفحة النموذج (Model Card Authors)
- يوسف خميس (الرئيس التنفيذي والمؤسس، Egytronic)
- أحمد (الرئيس التنفيذي المشارك والمؤسس المشارك، Egytronic)
- Manus AI (مساعد)
جهة الاتصال لصفحة النموذج (Model Card Contact)
- للاستفسارات أو التحديثات المتعلقة بصفحة النموذج هذه، يرجى الاتصال بـ: contact@egytronic.com
كيف تبدأ استخدام النموذج (How to Get Started with the Model)
# For text-only LLMs (using llama-cli)
# Ensure you have llama.cpp installed and compiled
llama-cli -hf YousefKhamis/Egytronic_1.0 --jinja
# For multimodal models (if applicable, using llama-mtmd-cli)
# llama-mtmd-cli -hf YousefKhamis/Egytronic_1.0 --jinja
# Example using Hugging Face Transformers (requires conversion to HF format)
# from transformers import AutoTokenizer, AutoModelForCausalLM
# tokenizer = AutoTokenizer.from_pretrained("YousefKhamis/Egytronic_1.0")
# model = AutoModelForCausalLM.from_pretrained("YousefKhamis/Egytronic_1.0", device_map="auto")
# prompt = "اكتب قصة قصيرة عن القاهرة القديمة:"
# inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
# outputs = model.generate(**inputs, max_new_tokens=200)
# print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 59
16-bit