MASARAT-SA commited on
Commit
0d44655
·
verified ·
1 Parent(s): f7cf6d6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +292 -4
README.md CHANGED
@@ -1,7 +1,295 @@
1
  ---
2
- license: mit
3
  language:
4
  - ar
5
- base_model:
6
- - jafari333/mubeen
7
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ license: other
3
  language:
4
  - ar
5
+ - en
6
+ pipeline_tag: text-generation
7
+ tags:
8
+ - arabic
9
+ - islamic-studies
10
+ - closed-source
11
+ - conversational
12
+ - nlp
13
+ library_name: transformers
14
+ privacy_policy: https://masarat.sa/privacy
15
+ terms_of_service: https://masarat.sa/terms
16
+ ---
17
+
18
+ # Mubeen v1.0 β | مُبين الإصدار الأول بيتا
19
+
20
+ <div style="text-align: center;">
21
+ <img src="https://mubeen.masarat.sa/og-img/1200x630.png" alt="Mubeen AI" width="200"/>
22
+ </div>
23
+
24
+ ## Model Details | تفاصيل النموذج
25
+
26
+ ### English
27
+ **Mubeen** is a specialized Arabic language model developed by MASARAT SA, Saudi Arabia. It demonstrates superior performance compared to open Arabic models and advances beyond ChatGPT-4.1 in Arabic linguistic and heritage tasks. The model is currently available for free during its beta phase.
28
+
29
+ ### العربية
30
+ **مُبين** نموذج لغوي عربي متخصص طوّرته شركة مسارات السعودية. يُظهر أداءً متفوقاً مقارنة بالنماذج العربية المفتوحة ويتقدم على ChatGPT-4.1 في المهام اللغوية والتراثية العربية. النموذج متاح مجاناً حالياً في مرحلته التجريبية.
31
+
32
+ - **Developed by | طُوِّر من قِبل:** MASARAT SA, Saudi Arabia | مسارات السعودية
33
+ - **Model type | نوع النموذج:** Text Generation | توليد النصوص
34
+ - **Language(s) | اللغات:** Arabic, English | العربية، الإنجليزية
35
+ - **License | الترخيص:** Custom (Closed Weights) | مخصص (أوزان مغلقة)
36
+ - **Status | الحالة:** Free Public Beta | بيتا مجاني للعموم
37
+
38
+ ## Uses | الاستخدامات
39
+
40
+ ### Intended Use | الاستخدام المقصود
41
+
42
+ #### English
43
+ Mubeen is designed for:
44
+ - **Arabic Language Processing**: Grammar analysis, morphology, prosody, rhetoric, and literary criticism
45
+ - **Islamic Studies**: Quranic interpretation, Islamic jurisprudence, Hadith studies, and biographical studies
46
+ - **Translation**: High-accuracy Arabic ↔ English translation with cultural and religious context awareness
47
+ - **Educational Support**: Academic assistance in Arabic linguistics and Islamic studies
48
+ - **Research**: Supporting scholarly work in Arabic heritage and Islamic civilization
49
+
50
+ #### العربية
51
+ صُمم مُبين لـ:
52
+ - **معالجة اللغة العربية**: الإعراب والصرف والعروض والبلاغة والنقد الأدبي
53
+ - **الدراسات الإسلامية**: التفسير والفقه والحديث والتراجم
54
+ - **الترجمة**: ترجمة عربي ↔ إنجليزي عالية الدقة مع مراعاة السياق الثقافي والديني
55
+ - **الدعم التعليمي**: المساعدة الأكاديمية في اللسانيات العربية والدراسات الإسلامية
56
+ - **البحث**: دعم العمل العلمي في التراث العربي والحضارة الإسلامية
57
+
58
+ ### Out-of-Scope Use | الاستخدامات خارج النطاق
59
+
60
+ #### English
61
+ - Religious legal rulings (Fatwa) - consult qualified scholars
62
+ - Medical advice - consult healthcare professionals
63
+ - Legal advice - consult legal professionals
64
+ - Financial advice - consult financial advisors
65
+ - Content that promotes hate speech or misinformation
66
+
67
+ #### العربية
68
+ - الفتاوى الشرعية - استشر العلماء المتخصصين
69
+ - النصائح الطبية - استشر المهنيين الطبيين
70
+ - النصائح القانونية - استشر المهنيين القانونيين
71
+ - النصائح المالية - استشر المستشارين الماليين
72
+ - المحتوى الذي يروج لخطاب الكراهية أو المعلومات المضللة
73
+
74
+ ## Bias, Risks, and Limitations | التحيز والمخاطر والقيود
75
+
76
+ ### English
77
+ - **Cultural Context**: Optimized for Arabic and Islamic cultural contexts; may not perform equally well for other cultural perspectives
78
+ - **Verification Required**: Users should verify information accuracy, especially for sensitive topics
79
+ - **Not Professional Advice**: Does not replace consultation with specialists in relevant fields
80
+ - **Beta Limitations**: Current version has basic reasoning capabilities that will be enhanced in future releases
81
+ - **Language Preference**: Primarily optimized for Arabic; English capabilities are secondary
82
+
83
+ ### العربية
84
+ - **السياق الثقافي**: محسّن للسياقات الثقافية العربية والإسلامية؛ قد لا يؤدي بنفس الكفاءة للمنظورات الثقافية الأخرى
85
+ - **مطلوب التحقق**: يجب على المستخدمين التحقق من دقة المعلومات، خاصة للمواضيع الحساسة
86
+ - **ليس مشورة مهنية**: لا يُغني عن استشارة المتخصصين في المجالات ��ات الصلة
87
+ - **قيود البيتا**: النسخة الحالية لها قدرات استدلالية أساسية ستُحسّن في الإصدارات المستقبلية
88
+ - **تفضيل اللغة**: محسّن أساساً للعربية؛ قدرات الإنجليزية ثانوية
89
+
90
+ ## Training Details | تفاصيل التدريب
91
+
92
+ ### Training Data | بيانات التدريب
93
+
94
+ #### English
95
+ - **Curated Arabic Texts**: Grammar, rhetoric, poetry, Quranic interpretations, and research papers
96
+ - **Bilingual Translation Data**: Hand-selected high-quality Arabic-English translation pairs
97
+ - **Mathematical and Logic Collections**: Reviewed datasets for problem-solving capabilities
98
+ - **Multimodal Data**: Arabic OCR and document analysis datasets
99
+ - **Ethical Filtering**: Multi-stage cultural and ethical content filtering
100
+
101
+ #### العربية
102
+ - **نصوص عربية منقّحة**: نحو وبلاغة وشعر وتفاسير وأوراق بحثية
103
+ - **بيانات ترجمة ثنائية**: أزواج ترجمة عربي-إنجليزي عالية الجودة مختارة يدوياً
104
+ - **مجموعات رياضيات ومنطق**: مجموعات بيانات مُراجعة لقدرات حل المشكلات
105
+ - **بيانات متعددة الوسائط**: مجموعات بيانات التعرف الضوئي على الحروف العربية وتحليل الوثائق
106
+ - **التصفية الأخلاقية**: تصفية محتوى ثقافية وأخلاقية متعددة المراحل
107
+
108
+ ### Training Procedure | إجراء التدريب
109
+
110
+ Training details are proprietary. The model uses state-of-the-art techniques optimized for Arabic language understanding and generation.
111
+
112
+ تفاصيل التدريب ملكية خاصة. يستخدم النموذج تقنيات حديثة محسّنة لفهم وتوليد اللغة العربية.
113
+
114
+ ## Evaluation | التقييم
115
+
116
+ ### Testing Data & Metrics | بيانات الاختبار والمقاييس
117
+
118
+ | Benchmark | Mubeen | Best Open Arabic | ChatGPT-4.1 |
119
+ |-----------|---------|------------------|--------------|
120
+ | ArabicMMLU (45 questions) | **97%** | 58% (Falcon-H1) | 80% |
121
+ | ALUE (40 questions) | **89%** | 70% (Jais-70B) | 85% |
122
+ | ACVA (20 questions) | **91%** | 76% (Jais-70B) | 88% |
123
+ | ArabicaQA (15 questions) | **92%** | 83% (Jais-70B) | 90% |
124
+ | AlGhafa (10 questions) | **94%** | 78% (Falcon-H1) | 85% |
125
+ | Additional Tasks (5 questions) | **96.8%** | 87% (Fanar-1-9B) | 95% |
126
+ | **Composite Average** | **93.3%** | 70% (Falcon-H1) | 88.0% |
127
+
128
+ ### Results Summary | ملخص النتائج
129
+
130
+ #### English
131
+ Mubeen demonstrates superior performance across all major Arabic NLP benchmarks, achieving a 93.3% composite average compared to 70% for the best open Arabic model and 88% for ChatGPT-4.1.
132
+
133
+ #### العربية
134
+ يُظهر مُبين أداءً متفوقاً عبر جميع معايير معالجة اللغة العربية الرئيسية، محققاً متوسطاً مركباً قدره 93.3% مقارنة بـ 70% لأفضل نموذج عربي مفتوح و88% لـ ChatGPT-4.1.
135
+
136
+ ## Environmental Impact | التأثير البيئي
137
+
138
+ Environmental impact details are not publicly available due to the proprietary nature of the training infrastructure.
139
+
140
+ تفاصيل التأثير البيئي غير متاحة للعموم بسبب الطبيعة الملكية لبنية التدريب.
141
+
142
+ ## Technical Specifications | المواصفات التقنية
143
+
144
+ ### Model Architecture | بنية النموذج
145
+ - **Architecture**: Proprietary transformer-based architecture | بنية المحوّل الملكية
146
+ - **Parameters**: Not disclosed | غير محدد
147
+ - **Context Length**: Not disclosed | غير محدد
148
+ - **Precision**: Not disclosed | غير محدد
149
+
150
+ ### Capabilities | القدرات
151
+
152
+ #### Multimodal | متعدد الوسائط
153
+ - **Arabic OCR**: Text extraction from images and PDFs | استخراج النص من الصور و PDF
154
+ - **Document Analysis**: Historical manuscripts and documents | تحليل المخطوطات والوثائق التاريخية
155
+ - **Visual Content Analysis**: Image description and analysis | وصف وتحليل المحتوى البصري
156
+
157
+ ## How to Get Started | كيفية البدء
158
+
159
+ ### English
160
+ Currently available for free during beta phase at [mubeen.masarat.sa](https://mubeen.masarat.sa). API access is under development with security testing.
161
+
162
+ ### العربية
163
+ متاح حالياً مجاناً في المرحلة التجريبية على [mubeen.masarat.sa](https://mubeen.masarat.sa). الوصول عبر API قيد التطوير مع اختبارات الأمان.
164
+
165
+ ## Future Development | التطوير المستقبلي
166
+
167
+ ### In Development | قيد التطوير
168
+ - **Advanced Reasoning**: Enhanced analytical capabilities | قدرات تحليلية معززة
169
+ - **API Interface**: Developer tools and application integration | أدوات المطورين والتكامل مع التطبيقات
170
+ - **Batch Processing**: Research application capabilities | قدرات التطبيقات البحثية
171
+
172
+ ### Future Plans | الخطط المستقبلية
173
+ - **Advanced Visual Capabilities**: Historical document processing | معالجة الوثائق التاريخية
174
+ - **Visual Content Generation**: Arabic calligraphy production | إنتاج الخط العربي
175
+ - **Advanced Research Tools**: Scientific collaboration features | ميزات التعاون العلمي
176
+
177
+ ## Citation | الاستشهاد
178
+
179
+ ```bibtex
180
+ @misc{mubeen2025,
181
+ title={Mubeen: A Specialized Arabic Language Model},
182
+ author={MASARAT SA},
183
+ year={2025},
184
+ month={July},
185
+ url={https://mubeen.masarat.sa},
186
+ note={Version 1.0 Beta}
187
+ }
188
+ ```
189
+
190
+ ## Model Evaluation & Testing | تقييم واختبار النموذج
191
+
192
+ ### For Researchers & Evaluators | للباحثين والمقيّمين
193
+
194
+ #### English
195
+ We welcome independent evaluation and testing of Mubeen by researchers and institutions. To ensure fair and comprehensive evaluation:
196
+
197
+ **📊 Recommended Benchmarks:**
198
+ - ArabicMMLU, ALUE, ACVA, ArabicaQA, AlGhafa
199
+ - Custom Arabic linguistic tasks (morphology, syntax, semantics)
200
+ - Islamic studies and heritage knowledge assessments
201
+ - Arabic-English translation quality evaluations
202
+
203
+ **🔬 Evaluation Access:**
204
+ - Research institutions can request evaluation access via [research@masarat.sa](mailto:research@masarat.sa)
205
+ - Academic collaboration opportunities available
206
+ - Custom evaluation protocols can be discussed for specific research needs
207
+
208
+ **📋 Evaluation Guidelines:**
209
+ - Use identical prompting strategies across compared models
210
+ - Consider cultural and linguistic context in evaluation design
211
+ - Report evaluation methodology transparently
212
+ - We provide evaluation datasets and protocols upon request
213
+
214
+ **🤝 Independent Verification:**
215
+ - We encourage third-party evaluation and benchmarking
216
+ - Evaluation results can be published with proper attribution
217
+ - Contact us for evaluation dataset access and technical specifications
218
+
219
+ #### العربية
220
+ نرحب بالتقييم والاختبار المستقل لمُبين من قِبل الباحثين والمؤسسات. لضمان تقييم عادل وشامل:
221
+
222
+ **📊 المعايير المُوصى بها:**
223
+ - ArabicMMLU، ALUE، ACVA، ArabicaQA، AlGhafa
224
+ - مهام لسانية عربية مخصصة (صرف، نحو، دلالة)
225
+ - تقييمات معرفة الدراسات الإسلامية والتراث
226
+ - تقييمات جودة الترجمة العربية-الإنجليزية
227
+
228
+ **🔬 الوصول للتقييم:**
229
+ - يمكن للمؤسسات البحثية طلب وصول التقييم عبر [research@masarat.sa](mailto:research@masarat.sa)
230
+ - فرص التعاون الأكاديمي متاحة
231
+ - يمكن مناقشة بروتوكولات تقييم مخصصة للاحتياجات البحثية المحددة
232
+
233
+ **📋 إرشادات التقييم:**
234
+ - استخدام استراتيجيات تحفيز متطابقة عبر النماذج المقارنة
235
+ - مراعاة السياق الثقافي واللساني في تصميم التقييم
236
+ - الإبلاغ عن منهجية التقييم بشفافية
237
+ - نوفر مجموعات بيانات التقييم والبروتوكولات عند الطلب
238
+
239
+ **🤝 التحقق المستقل:**
240
+ - نشجع التقييم والمعايرة من طرف ثالث
241
+ - يمكن نشر نتائج التقييم مع الإسناد المناسب
242
+ - تواصل معنا للوصول لمجموعات بيانات التقييم والمواصفات التقنية
243
+
244
+ ### Evaluation Request Process | عملية طلب التقييم
245
+
246
+ #### English
247
+ 1. **Submit Request**: Email [research@masarat.sa](mailto:research@masarat.sa) with:
248
+ - Research institution affiliation
249
+ - Evaluation objectives and methodology
250
+ - Timeline and expected deliverables
251
+ - Publication intentions
252
+
253
+ 2. **Review Process**: 5-10 business days for evaluation access approval
254
+
255
+ 3. **Access Provision**: Evaluation environment access and documentation
256
+
257
+ 4. **Support**: Technical support during evaluation period
258
+
259
+ 5. **Results Sharing**: Optional results sharing for research advancement
260
+
261
+ #### العربية
262
+ 1. **تقديم الطلب**: أرسل لـ [research@masarat.sa](mailto:research@masarat.sa) مع:
263
+ - انتماء المؤسسة البحثية
264
+ - أهداف ومنهجية التقييم
265
+ - الجدول الزمني والنتائج المتوقعة
266
+ - نوايا النشر
267
+
268
+ 2. **عملية المراجعة**: 5-10 أيام عمل لموافقة وصول التقييم
269
+
270
+ 3. **توفير الوصول**: وصول لبيئة التقييم والوثائق
271
+
272
+ 4. **الدعم**: دعم تقني خلال فترة التقييم
273
+
274
+ 5. **مشاركة النتائج**: مشاركة اختيارية للنتائج لتقدم البحث
275
+
276
+ ## Contact | التواصل
277
+
278
+ - **Website | الموقع**: [mubeen.masarat.sa](https://mubeen.masarat.sa)
279
+ - **Technical Support | الدعم التقني**: [mubeen@masarat.sa](mailto:mubeen@masarat.sa)
280
+ - **Research & Evaluation | البحث والتقييم**: [research@masarat.sa](mailto:research@masarat.sa)
281
+ - **General Inquiries | الاستفسارات العامة**: [info@masarat.sa](mailto:info@masarat.sa)
282
+ - **Business | الأعمال**: [business@masarat.sa](mailto:business@masarat.sa)
283
+ - **Community | المجتمع**: [HuggingFace Discussions](https://huggingface.co/MASARAT-SA/mubeen/discussions)
284
+
285
+ ## Supporting Saudi Vision 2030 | دعم رؤية السعودية 2030
286
+
287
+ Mubeen supports Saudi Vision 2030 objectives through digitizing Arabic-Islamic heritage, developing the knowledge economy, and establishing Saudi Arabia's global leadership in Arabic AI technology.
288
+
289
+ يدعم مُبين أهداف رؤية المملكة 2030 من خلال رقمنة التراث العربي الإسلامي وتطوير اقتصاد المعرفة وترسيخ مكانة السعودية كرائدة عالمياً في تقنيات الذكاء الاصطناعي العربي.
290
+
291
+ ---
292
+
293
+ **© 2025 MASARAT SA - All Rights Reserved | جميع الحقوق محفوظة**
294
+
295
+ *"العِلم ما نفع" - Beneficial Arabic AI that preserves heritage and serves the future*