Spaces:

dodo-2100
/

essay-scoring-gui

Build error

App Files Files Community

dodo-2100 commited on Mar 27

Commit

43587aa

verified ·

1 Parent(s): 18dbc5c

Upload 5 files

Browse files

Files changed (5) hide show

app.py +220 -0
logic.py +368 -0
requirements.txt +7 -3
styles.css +51 -0
translations.py +74 -0

app.py ADDED Viewed

	@@ -0,0 +1,220 @@

+"""
+====================================================================================================
+📂 FILE: app.py | ملف واجهة المستخدم
+====================================================================================================
+🇬🇧 English Description:
+This is the frontend entry point using Streamlit.
+It handles:
+1. UI Layout & Design (Sidebar, Inputs, Results).
+2. Resource Monitoring (RAM, CPU, GPU Dashboard).
+3. Bilingual Support (Switching between Ar/En).
+4. Calling the backend `logic.py` to process answers.
+🇪🇬 Arabic Description:
+هذا هو مدخل الواجهة الأمامية باستخدام مكتبة Streamlit.
+يتولى:
+1. تصميم وتخطيط الواجهة (القائمة الجانبية، المدخلات، النتائج).
+2. مراقبة الموارد (لوحة الرامات، المعالج، وكارت الشاشة).
+3. دعم تعدد اللغات (التحويل بين العربية والإنجليزية).
+4. استدعاء الخلفية `logic.py` لمعالجة الإجابات.
+====================================================================================================
+"""
+import streamlit as st
+import time
+import psutil
+import subprocess
+from logic import load_model, predict, device
+from translations import TRANSLATIONS
+# ==========================================
+# 📊 RESOURCE MONITOR HELPER | مساعد مراقبة الموارد
+# ==========================================
+def get_system_metrics():
+    """
+    🇬🇧 Collects real-time system stats.
+    Why? To debug crashes on Colab by monitoring if RAM/VRAM is full.
+    🇪🇬 يجمع إحصائيات النظام لحظياً.
+    لماذا؟ لتتبع أسباب الانهيار على Colab عبر مراقبة امتلاء الرامات أو ذاكرة الفيديو.
+    """
+    # 🇬🇧 System RAM (Capacity: 12GB on Colab)
+    # 🇪🇬 رامات النظام (السعة: 12 جيجا على Colab)
+    ram = psutil.virtual_memory()
+    ram_used = ram.used / (1024 ** 3) # Convert bytes to GB
+    ram_total = ram.total / (1024 ** 3)
+    ram_percent = ram.percent
+    # 🇬🇧 CPU Usage (Capacity: 2 Cores on Colab)
+    # 🇪🇬 استهلاك المعالج (السعة: نواتين على Colab)
+    cpu_percent = psutil.cpu_percent(interval=None)
+    # 🇬🇧 GPU VRAM (Capacity: 16GB on T4) - Via nvidia-smi command
+    # 🇪🇬 ذاكرة الفيديو (السعة: 16 جيجا على T4) - عبر أمر nvidia-smi
+    gpu_info = "N/A"
+    gpu_memory = "N/A"
+    try:
+        # Run nvidia-smi query to get utilization and memory usage
+        result = subprocess.run(
+            ['nvidia-smi', '--query-gpu=utilization.gpu,memory.used,memory.total', '--format=csv,nounits,noheader'],
+            stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True
+        )
+        if result.returncode == 0:
+            util, used, total = result.stdout.strip().split(',')
+            gpu_info = f"{util.strip()}%"
+            gpu_memory = f"{int(used)}MB / {int(total)}MB"
+    except:
+        pass # Fail silently if no NVIDIA GPU found (e.g. local machine without CUDA)
+    return ram_used, ram_total, ram_percent, cpu_percent, gpu_info, gpu_memory
+# ==========================================
+# 🎨 PAGE SETUP (Must be first) | إعداد الصفحة (يجب أن يكون أولاً)
+# ==========================================
+st.set_page_config(
+    page_title="ASAG Grader AI",
+    page_icon="🎓",
+    layout="wide",
+    initial_sidebar_state="expanded"
+)
+# 🇬🇧 Load Custom CSS for advanced styling
+# 🇪🇬 تحميل CSS المخصص للتنسيق المتقدم
+with open("styles.css", "r") as f:
+    st.markdown(f"<style>{f.read()}</style>", unsafe_allow_html=True)
+# ==========================================
+# 🌐 LANGUAGE SETUP | إعداد اللغات
+# ==========================================
+# 🇬🇧 Initialize Session State for Language (Default: Arabic)
+# 🇪🇬 تهيئة حالة الجلسة للغة (الافتراضي: العربية)
+if 'lang' not in st.session_state:
+    st.session_state.lang = 'ar'
+def toggle_lang():
+    """Switches between 'ar' and 'en'"""
+    if st.session_state.lang == 'ar':
+        st.session_state.lang = 'en'
+    else:
+        st.session_state.lang = 'ar'
+# 🇬🇧 Sidebar Button to Toggle Language
+# 🇪🇬 زر القائمة الجانبية لتغيير اللغة
+lang_btn_label = "Switch to English 🇺🇸" if st.session_state.lang == 'ar' else "التحويل للعربية 🇪🇬"
+st.sidebar.button(lang_btn_label, on_click=toggle_lang)
+# 🇬🇧 Select Dictionary based on current language
+# 🇪🇬 اختيار القاموس بناءً على اللغة الحالية
+txt = TRANSLATIONS[st.session_state.lang]
+# 🇬🇧 Dynamic Directionality (RTL for Arabic, LTR for English)
+# 🇪🇬 اتجاه ديناميكي (يمين لليسار للعربية، يسار لليمين للإنجليزية)
+st.markdown(f"""
+<style>
+    .stApp {{ direction: {'rtl' if st.session_state.lang == 'ar' else 'ltr'}; }}
+    .stTextInput, .stTextArea {{ direction: {'rtl' if st.session_state.lang == 'ar' else 'ltr'}; }}
+</style>
+""", unsafe_allow_html=True)
+# ==========================================
+# 📟 SIDEBAR MONITOR | لوحة المراقبة الجانبية
+# ==========================================
+with st.sidebar.expander("📊 System Monitor (Live)", expanded=True):
+    r_used, r_total, r_perc, c_perc, g_util, g_mem = get_system_metrics()
+    # RAM Display
+    st.caption("💻 **System RAM:**")
+    st.progress(r_perc / 100)
+    st.write(f"{r_used:.1f}GB / {r_total:.1f}GB ({r_perc}%)")
+    # CPU Display
+    st.caption("⚙️ **CPU Usage:**")
+    st.progress(c_perc / 100)
+    st.write(f"{c_perc}%")
+    # GPU Display
+    st.caption("🎮 **GPU VRAM:**")
+    st.code(f"Util: {g_util}\nMem:  {g_mem}")
+    # Refresh Button
+    if st.button("🔄 Refresh Stats"):
+        st.rerun()
+# ==========================================
+# 🧠 MODEL LOADING | تحميل الموديل
+# ==========================================
+with st.spinner(txt["loading_model"]):
+    model, tokenizer = load_model(device)
+if model is None:
+    st.error(txt["error_model_not_found"])
+    st.stop()
+# ==========================================
+# 🌌 UI LAYOUT | تخطيط الواجهة
+# ==========================================
+st.sidebar.image("https://cdn-icons-png.flaticon.com/512/4712/4712038.png", width=100)
+st.sidebar.title(txt["sidebar_title"])
+st.sidebar.info(txt["sidebar_info"])
+st.title(txt["main_title"])
+st.markdown("---")
+col1, col2 = st.columns(2)
+with col1:
+    question = st.text_area(txt["question_label"], height=100, placeholder=txt["question_placeholder"])
+    model_answer = st.text_area(txt["model_answer_label"], height=150, placeholder=txt["model_answer_placeholder"])
+with col2:
+    student_answer = st.text_area(txt["student_answer_label"], height=290, placeholder=txt["student_answer_placeholder"])
+# 🇬🇧 Analyze Button Logic
+# 🇪🇬 منطق زر التحليل
+if st.button(txt["analyze_btn"]):
+    if not (question and model_answer and student_answer):
+        st.warning(txt["warning_fill_fields"])
+    else:
+        # Progress Bar Animation
+        my_bar = st.progress(0, text=txt["progress_analyzing"])
+        time.sleep(0.5)
+        my_bar.progress(50, text=txt["progress_measuring"])
+        # 🇬🇧 Call Backend for Prediction
+        # 🇪🇬 استدعاء الخلفية للتوقع
+        s1, s2, s3, total, feedback = predict(question, model_answer, student_answer, model, tokenizer, lang=st.session_state.lang)
+        my_bar.progress(100, text=txt["progress_done"])
+        time.sleep(0.2)
+        my_bar.empty()
+        # ====================
+        # 📊 RESULTS DASHBOARD | لوحة النتائج
+        # ====================
+        st.success(txt["final_score"].format(total=total))
+        # Metrics Row
+        m1, m2, m3 = st.columns(3)
+        m1.metric(txt["metric_c1"], f"{s1:.2f}/5", delta_color="normal")
+        m2.metric(txt["metric_c2"], f"{s2:.2f}/5", delta_color="normal")
+        m3.metric(txt["metric_c3"], f"{s3:.2f}/5", delta_color="normal")
+        # Visual Bars
+        st.markdown(txt["details_title"])
+        st.caption(txt["caption_c1"])
+        st.progress(int((s1/5)*100))
+        st.caption(txt["caption_c2"])
+        st.progress(int((s2/5)*100))
+        # Feedback Box
+        st.markdown("---")
+        st.markdown(txt["feedback_title"])
+        # Prepare feedback HTML (Replace newlines with <br>)
+        feedback_html = feedback.replace('\n', '<br>')
+        st.markdown(f"""
+        <div class="feedback-box">
+        {feedback_html}
+        </div>
+        """, unsafe_allow_html=True)

logic.py ADDED Viewed

	@@ -0,0 +1,368 @@

+"""
+====================================================================================================
+📂 FILE: logic.py | ملف المنطق الأساسي
+====================================================================================================
+🇬🇧 English Description:
+This file handles the backend logic for the ASAG (Automated Short Answer Grading) system.
+It is responsible for:
+1. Loading the fine-tuned DeBERTa model.
+2. Managing system resources (selecting GPU vs CPU).
+3. Preprocessing text (Tokenization).
+4. Running the model to predict scores.
+5. Generating detailed feedback based on the scores.
+🇪🇬 Arabic Description:
+يتولى هذا الملف المنطق الخلفي لنظام التصحيح الآلي (ASAG).
+وهو مسؤول عن:
+1. تحميل نموذج DeBERTa المدرب مسبقاً.
+2. إدارة موارد النظام (اختيار المعالج الرسومي GPU أو المعالج المركزي CPU).
+3. معالجة النصوص (Tokenization).
+4. تشغيل الموديل لتوقع الدرجات.
+5. توليد تغذية راجعة مفصلة بناءً على الدرجات.
+====================================================================================================
+"""
+import torch
+import torch.nn as nn
+from transformers import AutoTokenizer, AutoModel, AutoConfig
+import gc
+import streamlit as st
+import os
+from datetime import datetime
+# ==========================================
+# 📝 DIAGNOSTIC LOG | سجل التشخيص
+# ==========================================
+LOG_FILE = os.path.join(os.path.dirname(__file__), "diagnostic_log.txt")
+def diag_log(msg):
+    """يحفظ رسالة تشخيصية في ملف diagnostic_log.txt مع الوقت."""
+    timestamp = datetime.now().strftime("%H:%M:%S")
+    line = f"[{timestamp}] {msg}"
+    print(line)  # طباعة أيضاً في الـ terminal
+    with open(LOG_FILE, "a", encoding="utf-8") as f:
+        f.write(line + "\n")
+# ==========================================
+# ⚙️ CONFIGURATION & SELECTION | الإعدادات والاختيارات
+# ==========================================
+# 🇬🇧 Define the base model name used for training.
+# 🇪🇬 تحديد اسم الموديل الأساسي المستخدم في التدريب.
+MODEL_NAME = "microsoft/deberta-v2-xxlarge"
+# 🇬🇧 Path to the saved model weights file.
+# 🇪🇬 مسار ملف أوزان الموديل المحفوظ.
+MODEL_PATH = "best_model_xxl.pth"
+# 🇬🇧 Maximum length for input text tokens.
+# ℹ️ IMPACT: Texts longer than this will be truncated, shorter ones padded.
+# 🇪🇬 الحد الأقصى لطول النص (بالكلمات/الرموز).
+# ℹ️ التأثير: النصوص الأطول من ذلك سيتم قصها، والأقصر سيتم تكميلها بأصفار.
+MAX_LEN = 512
+# ---------------------------------------------------------
+# 🖥️ DEVICE SELECTION STRATEGY | استراتيجية اختيار الجهاز
+# ---------------------------------------------------------
+# 🇬🇧 We check if a GPU (CUDA) is available. If yes, we use it for speed and memory efficiency.
+# ℹ️ IMPACT: Using GPU allows loading the 1.5B param model into VRAM (16GB on T4),
+#    saving System RAM and preventing Colab crashes.
+# 🇪🇬 نتحقق مما إذا كان كارت الشاشة (GPU/CUDA) متاحاً. إذا نعم، نستخدمه للسرعة وكفاءة الذاكرة.
+# ℹ️ التأثير: استخدام GPU يسمح بتحميل الموديل الضخم (1.5 مليار باراميتر) في ذاكرة الفيديو VRAM،
+#    مما يوفر رامات النظام ويمنع انهيار الجلسة في Colab.
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+# device = torch.device('cpu') # ⚠️ UNCOMMENT ONLY FOR LOCAL DEBUGGING ON WINDOWS
+# ==========================================
+# 🏗️ MODEL ARCHITECTURE CLASS | كلاس هيكل الموديل
+# ==========================================
+class ASAGModelXXL(nn.Module):
+    """
+    🇬🇧 Custom PyTorch Module wrapping DeBERTa.
+    We add 3 separate Fully Connected (FC) layers (Heads) to predict 3 distinct scores:
+    1. Content (C1)
+    2. Logic (C2)
+    3. Language (C3)
+    🇪🇬 كلاس مخصص يغلف موديل DeBERTa.
+    نضيف 3 طبقات كاملة الاتصال (Heads) لتوقع 3 درجات منفصلة:
+    1. المحتوى (C1)
+    2. المنطق (C2)
+    3. اللغة (C3)
+    """
+    def __init__(self, model_name, from_config=False):
+        super().__init__()
+        if from_config:
+            # 🇬🇧 Build architecture ONLY (no pretrained weights download = saves ~6GB RAM).
+            # 🇪🇬 بناء الهيكل فقط (بدون تحميل أوزان = توفير ~6 جيجا RAM).
+            config = AutoConfig.from_pretrained(model_name)
+            self.backbone = AutoModel.from_config(config)
+        else:
+            # 🇬🇧 Load with pretrained weights (only used for training).
+            # 🇪🇬 تحميل مع الأوزان (يُستخدم للتدريب فقط).
+            self.backbone = AutoModel.from_pretrained(model_name)
+        # 🇬🇧 Define output heads. Each maps the hidden size (1536 for XXL) to 1 score.
+        # 🇪🇬 تعريف طبقات الإخراج. كل طبقة تحول البعد الخفي (1536) إلى درجة واحدة.
+        self.fc_c1 = nn.Linear(self.backbone.config.hidden_size, 1)
+        self.fc_c2 = nn.Linear(self.backbone.config.hidden_size, 1)
+        self.fc_c3 = nn.Linear(self.backbone.config.hidden_size, 1)
+        # 🇬🇧 Sigmoid activation to squash outputs between 0 and 1 (for scoring).
+        # 🇪🇬 دالة التنشيط Sigmoid لحصر المخرجات بين 0 و 1 (للتقييم).
+        self.sigmoid = nn.Sigmoid()
+        # 🇬🇧 Dropout for regularization during training (less relevant in inference).
+        # 🇪🇬 Dropout لتقليل الاعتماد الزائد أثناء التدريب.
+        self.dropout = nn.Dropout(0.3)
+    def forward(self, input_ids, mask, token_type_ids=None):
+        # 🇬🇧 Pass input through DeBERTa.
+        # 🇪🇬 تمرير المدخلات عبر DeBERTa.
+        out = self.backbone(input_ids=input_ids, attention_mask=mask, token_type_ids=token_type_ids).last_hidden_state[:, 0, :]
+        # 🔍 طباعة تشخيصية: إحصائيات مخرجات الـ backbone
+        diag_log(f"🧠 [FWD] dtype بعد backbone: {out.dtype}")
+        diag_log(f"🧠 [FWD] الإحصائيات: mean={out.mean().item():.6f}, std={out.std().item():.6f}, min={out.min().item():.6f}, max={out.max().item():.6f}")
+        out = self.dropout(out)
+        # 🇬🇧 Pass the [CLS] embedding to each specific head to get scores.
+        # 🇪🇬 تمرير تمثيل الـ [CLS] لكل طبقة متخصصة للحصول على الدرجات.
+        return self.sigmoid(self.fc_c1(out)), self.sigmoid(self.fc_c2(out)), self.sigmoid(self.fc_c3(out))
+# ==========================================
+# 🧠 HYBRID FEEDBACK ENGINE | محرك التغذية الراجعة الهجين
+# ==========================================
+def generate_detailed_feedback(c1, c2, c3, lang="ar"):
+    """
+    🇬🇧 Generates text feedback based on numerical scores.
+    This logic bridges the gap between "AI numbers" and "Human understanding".
+    🇪🇬 يولد تغذية راجعة نصية بناءً على الدرجات الرقمية.
+    هذا المنطق يسد الفجوة بين "أرقام الذكاء الاصطناعي" و"الفهم البشري".
+    """
+    feedback = []
+    if lang == "ar":
+        # --- C1: Content (50%) | المحتوى العلمي ---
+        if c1 >= 4.8:
+            feedback.append("✨ **المحتوى العلمي:** ممتاز! إجابة شاملة ودقيقة جداً.")
+        elif c1 >= 4.0:
+            feedback.append("✅ **المحتوى العلمي:** جيد جداً، لكن يمكن إضافة المزيد من التفاصيل التقنية.")
+        elif c1 >= 2.5:
+            feedback.append("⚠️ **المحتوى العلمي:** مقبول، لكن ينقصه بعض النقاط الجوهرية. راجع تعريف المفاهيم.")
+        else:
+            feedback.append("❌ **المحتوى العلمي:** ضعيف. الإجابة لا تغطي المطلوب. يرجى مراجعة الدرس.")
+        # --- C2: Logic (35%) | التسلسل المنطقي ---
+        if c2 >= 4.5:
+            feedback.append("🧠 **التسلسل المنطقي:** رائع! الأفكار مرتبة بشكل منطقي وسلس.")
+        elif c2 < 3.0:
+            feedback.append("🔄 **التسلسل المنطقي:** الإجابة تحتاج لترتيب أفضل. حاول ربط الأسباب بالنتائج.")
+        # --- C3: Language (15%) | اللغة والأسلوب ---
+        if c3 < 3.5:
+            feedback.append("📝 **اللغة والأسلوب:** انتبه للأخطاء الإملائية والنحوية. الصياغة تحتاج لتحسين.")
+        else:
+            feedback.append("✍️ **اللغة والأسلوب:** صياغة سليمة وواضحة.")
+    else: # English Feedback 🇬🇧
+        # --- C1: Content (50%) ---
+        if c1 >= 4.8:
+            feedback.append("✨ **Content Accuracy:** Excellent! Comprehensive and very accurate answer.")
+        elif c1 >= 4.0:
+            feedback.append("✅ **Content Accuracy:** Very good, but could add more technical details.")
+        elif c1 >= 2.5:
+            feedback.append("⚠️ **Content Accuracy:** Acceptable, but misses some key points. Review the concepts.")
+        else:
+            feedback.append("❌ **Content Accuracy:** Weak. The answer does not cover the requirements. Please review the lesson.")
+        # --- C2: Logic (35%) ---
+        if c2 >= 4.5:
+            feedback.append("🧠 **Logical Flow:** Great! Ideas are organized logically and smoothly.")
+        elif c2 < 3.0:
+            feedback.append("🔄 **Logical Flow:** The answer needs better organization. Try to link causes to effects.")
+        # --- C3: Language (15%) ---
+        if c3 < 3.5:
+            feedback.append("📝 **Language & Style:** Watch out for spelling and grammar mistakes. Phrasing needs improvement.")
+        else:
+            feedback.append("✍️ **Language & Style:** Clear and correct phrasing.")
+    return "\n\n".join(feedback)
+# ==========================================
+# 🚀 LOAD & PREDICT | التحميل والتوقع
+# ==========================================
+@st.cache_resource
+def load_model(device_obj):
+    """
+    🇬🇧 Loads the model into memory. Uses st.cache_resource to prevent reloading on every interaction.
+    ℹ️ IMPACT: Huge performance boost. Without caching, every click would take 2+ minutes to reload 5GB model.
+    🇪🇬 يحمل الموديل في الذاكرة. يستخدم st.cache_resource لمنع إعادة التحميل مع كل تفاعل.
+    ℹ️ التأثير: تحسين هائل في الأداء. بدون التخزين المؤقت، كل ضغطة ستستغرق دقيقتين لإعادة تحميل 5 جيجا.
+    """
+    # 🇬🇧 Check for model file recursively (current dir or parent dir).
+    # 🇪🇬 البحث عن ملف الموديل بشكل تكراري (المجلد الحالي أو المجلد الأب).
+    path_to_check = os.path.join(os.path.dirname(__file__), "..", MODEL_PATH)
+    if not os.path.exists(path_to_check):
+        path_to_check = os.path.join(os.path.dirname(__file__), MODEL_PATH)
+    if not os.path.exists(path_to_check):
+        return None, None
+    # 🇬🇧 Load Tokenizer
+    # 🇪🇬 تحميل الـ Tokenizer
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    # ===== مسح الـ log القديم =====
+    with open(LOG_FILE, "w", encoding="utf-8") as f:
+        f.write(f"=== بدء التشخيص {datetime.now().strftime('%Y-%m-%d %H:%M:%S')} ===\n")
+    # =====================================================================
+    # ⚡ طريقة التحميل المحسّنة (Memory-Mapped):
+    #   1. بناء النموذج من Config (3.6GB أوزان عشوائية على CPU)
+    #   2. تحميل checkpoint بـ mmap=True (يقرأ من الملف مباشرة، بدون تحميل كامل في RAM)
+    #   3. load_state_dict ينسخ الأوزان واحدة واحدة (peak RAM ≈ 3.6GB + بضع MB)
+    #   4. الأوزان تبقى FP32 بالكامل (بدون فقدان دقة)
+    # =====================================================================
+    # ===== الخطوة 1: بناء هيكل النموذج =====
+    diag_log("🔍 [LOAD] الخطوة 1: بناء هيكل النموذج (from_config)...")
+    model = ASAGModelXXL(MODEL_NAME, from_config=True)
+    gc.collect()
+    diag_log("✅ [LOAD] الهيكل جاهز")
+    # ===== الخطوة 2: تحميل الأوزان بـ mmap (بدون استهلاك RAM إضافي) =====
+    diag_log("🔍 [LOAD] الخطوة 2: تحميل الأوزان (mmap - قراءة من الملف مباشرة)...")
+    try:
+        checkpoint = torch.load(path_to_check, map_location='cpu', mmap=True)
+    except Exception as e:
+        diag_log(f"❌ [LOAD] فشل تحميل الأوزان: {e}")
+        return None, None
+    sample_key = list(checkpoint.keys())[0]
+    diag_log(f"✅ [LOAD] تم تحميل {len(checkpoint)} مفتاح | نوع: {checkpoint[sample_key].dtype}")
+    # ===== الخطوة 3: تحميل الأوزان في النموذج =====
+    diag_log("🔍 [LOAD] الخطوة 3: تحميل الأوزان في النموذج...")
+    result = model.load_state_dict(checkpoint, strict=False)
+    if result.missing_keys:
+        diag_log(f"⚠️ [LOAD] مفاتيح ناقصة ({len(result.missing_keys)}): {result.missing_keys[:5]}")
+    if result.unexpected_keys:
+        diag_log(f"⚠️ [LOAD] مفاتيح زائدة ({len(result.unexpected_keys)}): {result.unexpected_keys[:5]}")
+    if not result.missing_keys and not result.unexpected_keys:
+        diag_log("✅ [LOAD] جميع المفاتيح متطابقة")
+    diag_log(f"🔍 [LOAD] نوع الأوزان: {next(model.backbone.parameters()).dtype}")
+    # ===== تحرير ذاكرة الـ checkpoint =====
+    del checkpoint
+    gc.collect()
+    diag_log("🗑️ [LOAD] تم تحرير الـ checkpoint")
+    # ===== الخطوة 4: نقل للـ GPU =====
+    diag_log("🔍 [LOAD] الخطوة 4: نقل النموذج للـ GPU...")
+    model.to(device_obj)
+    diag_log(f"✅ [LOAD] الجهاز: {device_obj} | dtype: {next(model.backbone.parameters()).dtype}")
+    if device_obj.type == 'cuda':
+        gpu_mem = torch.cuda.memory_allocated() / (1024**3)
+        diag_log(f"💾 [LOAD] ذاكرة GPU المستخدمة: {gpu_mem:.2f} GB")
+    diag_log("🎉 [LOAD] تم تحميل النموذج بنجاح!")
+    model.eval()
+    return model, tokenizer
+def predict(question, model_answer, student_answer, model, tokenizer, lang="ar"):
+    """
+    🇬🇧 The Core Inference Function.
+    1. Prepares input string (Question + Model Answer [SEP] Student Answer).
+    2. Tokenizes.
+    3. Runs Model.
+    4. Calculates Weighted Score.
+    🇪🇬 دالة الاستنتاج الأساسية.
+    1. تجهيز النص المدخل (السؤال + الإجابة النموذجية [SEP] إجابة الطالب).
+    2. الترميز (Tokenization).
+    3. تشغيل الموديل.
+    4. حساب الدرجة الموزونة.
+    """
+    # 🇬🇧 Manual tokenization to guarantee [CLS] + [SEP] + correct token_type_ids
+    # 🇪🇬 ترميز يدوي لضمان وجود [CLS] و [SEP] و token_type_ids صحيحة
+    # بعض نسخ transformers لا تضيف special tokens تلقائياً لـ DeBERTa
+    cls_id = tokenizer.cls_token_id  # عادة 1
+    sep_id = tokenizer.sep_token_id  # عادة 2
+    pad_id = tokenizer.pad_token_id  # عادة 0
+    # ترميز كل جزء بدون special tokens
+    tokens_a = tokenizer.encode(question + " " + model_answer, add_special_tokens=False)
+    tokens_b = tokenizer.encode(student_answer, add_special_tokens=False)
+    # بناء: [CLS] tokens_a [SEP] tokens_b [SEP]
+    input_ids = [cls_id] + tokens_a + [sep_id] + tokens_b + [sep_id]
+    # token_type_ids: 0 للسؤال+الإجابة النموذجية، 1 لإجابة الطالب
+    token_type_ids = [0] * (1 + len(tokens_a) + 1) + [1] * (len(tokens_b) + 1)
+    # قص إذا أطول من MAX_LEN
+    if len(input_ids) > MAX_LEN:
+        input_ids = input_ids[:MAX_LEN]
+        token_type_ids = token_type_ids[:MAX_LEN]
+    # Padding
+    actual_len = len(input_ids)
+    attention_mask = [1] * actual_len + [0] * (MAX_LEN - actual_len)
+    token_type_ids = token_type_ids + [0] * (MAX_LEN - actual_len)
+    input_ids = input_ids + [pad_id] * (MAX_LEN - actual_len)
+    inputs = {
+        'input_ids': torch.tensor([input_ids]),
+        'attention_mask': torch.tensor([attention_mask]),
+        'token_type_ids': torch.tensor([token_type_ids])
+    }
+    # 🔍 تشخيص
+    diag_log(f"📝 [INPUT] tokens: {actual_len}/{MAX_LEN} | CLS={cls_id} SEP={sep_id}")
+    diag_log(f"📝 [INPUT] أول 15 token: {inputs['input_ids'][0][:15].tolist()}")
+    diag_log(f"📝 [INPUT] token_type_ids (أول 15): {inputs['token_type_ids'][0][:15].tolist()}")
+    # موقع SEP (بداية إجابة الطالب)
+    sep_pos = 1 + len(tokens_a)
+    diag_log(f"📝 [INPUT] SEP في الموقع {sep_pos} | tokens_a={len(tokens_a)} tokens_b={len(tokens_b)}")
+    # 🇬🇧 Disable Gradient Calculation (Save Memory & Speed Up Inference)
+    # 🇪🇬 تعطيل حساب التفاضل (توفير الذاكرة وتسريع الاستنتاج)
+    with torch.no_grad():
+        # 🇬🇧 Disable autocast to prevent automatic FP16 conversion during inference.
+        # 🇪🇬 تعطيل الـ autocast لمنع التحويل التلقائي لـ FP16 أثناء الاستنتاج.
+        with torch.cuda.amp.autocast(enabled=False):
+            c1, c2, c3 = model(
+                inputs['input_ids'].to(device),
+                inputs['attention_mask'].to(device),
+                inputs['token_type_ids'].to(device)
+            )
+    # 🔍 طباعة تشخيصية للمخرجات الخام (قبل الضرب في 5)
+    diag_log(f"📊 [RAW] c1={c1.item():.6f}, c2={c2.item():.6f}, c3={c3.item():.6f}")
+    # 🇬🇧 Convert 0-1 sigmoid output to 0-5 scale
+    # 🇪🇬 تحويل مخرجات Sigmoid (0-1) إلى مقياس (0-5)
+    s1 = c1.item() * 5.0
+    s2 = c2.item() * 5.0
+    s3 = c3.item() * 5.0
+    # 🇬🇧 Calculate Final Weighted Score
+    # ℹ️ FORMULA: 50% Content + 35% Logic + 15% Language
+    # 🇪🇬 حساب الدرجة النهائية الموزونة
+    # ℹ️ المعادلة: 50% محتوى + 35% منطق + 15% لغة
+    total = (s1 * 0.50) + (s2 * 0.35) + (s3 * 0.15)
+    # 🔍 طباعة الدرجات النهائية
+    diag_log(f"📊 [SCORE] s1={s1:.4f}, s2={s2:.4f}, s3={s3:.4f}, total={total:.4f}")
+    return s1, s2, s3, total, generate_detailed_feedback(s1, s2, s3, lang)

requirements.txt CHANGED Viewed

@@ -1,3 +1,7 @@
-altair
-pandas
-streamlit

+torch
+torchvision
+torchaudio
+transformers
+sentencepiece
+protobuf
+psutil

styles.css ADDED Viewed

	@@ -0,0 +1,51 @@

+/* Google Fonts */
+@import url('https://fonts.googleapis.com/css2?family=Cairo:wght@400;700&display=swap');
+html, body, [class*="css"] {
+    font-family: 'Cairo', sans-serif;
+    direction: rtl; /* Right To Left Support */
+}
+/* Titles */
+h1, h2, h3 {
+    color: #4CAF50; /* Green Accent */
+    text-align: right;
+}
+/* Text Areas */
+.stTextArea textarea {
+    background-color: #1E1E1E;
+    color: #ffffff;
+    border-radius: 10px;
+    border: 1px solid #333;
+}
+/* Buttons */
+.stButton button {
+    background-color: #4CAF50;
+    color: white;
+    width: 100%;
+    border-radius: 12px;
+    font-weight: bold;
+    font-size: 18px;
+    transition: 0.3s;
+}
+.stButton button:hover {
+    background-color: #45a049;
+    scale: 1.02;
+}
+/* Metric Cards */
+div[data-testid="stMetricValue"] {
+    font-size: 2rem;
+    color: #FFD700; /* Gold */
+}
+/* Feedback Box */
+.feedback-box {
+    background-color: #262730;
+    padding: 20px;
+    border-radius: 10px;
+    border-right: 5px solid #4CAF50;
+    margin-top: 20px;
+}

translations.py ADDED Viewed

	@@ -0,0 +1,74 @@

+# Multi-language Dictionary
+TRANSLATIONS = {
+    "ar": {
+        "page_title": "نظام تصحيح الإجابات الذكي",
+        "sidebar_title": "🎓 نظام التصحيح الآلي",
+        "sidebar_info": """
+        **النظام الآلي لتصحيح الإجابات المقالية**
+        مدعوم بواسطة:
+        - **DeBERTa-v3-Large** (Fine-tuned).
+        - **محرك تغذية راجعة هجين**.
+        تطوير: **فريق المشروع**
+        """,
+        "main_title": "🧙‍♂️ المصحح الذكي (AI Grader)",
+        "question_label": "✍️ نص السؤال:",
+        "question_placeholder": "اكتب السؤال هنا...",
+        "model_answer_label": "🔑 الإجابة النموذجية:",
+        "model_answer_placeholder": "الإجابة الصحيحة...",
+        "student_answer_label": "👨‍🎓 إجابة الطالب:",
+        "student_answer_placeholder": "الإجابة المراد تصحيحها...",
+        "analyze_btn": "🚀 تحليل وتصحيح الإجابة",
+        "warning_fill_fields": "⚠️ يرجى ملء جميع الحقول أولاً!",
+        "progress_analyzing": "جاري تحليل المعنى...",
+        "progress_measuring": "قياس التشابه الدلالي...",
+        "progress_done": "تم الانتهاء!",
+        "final_score": "🏆 الدرجة النهائية: **{total:.2f} / 5.0**",
+        "metric_c1": "دقة المحتوى (C1)",
+        "metric_c2": "التسلسل المنطقي (C2)",
+        "metric_c3": "سلامة اللغة (C3)",
+        "details_title": "### 📊 تفاصيل التقييم:",
+        "caption_c1": "دقة المحتوى (علمياً)",
+        "caption_c2": "المنطق وتسلسل الأفكار",
+        "feedback_title": "### 💬 التغذية الراجعة (AI Feedback):",
+        "error_model_not_found": "🚨 خطأ: ملف الموديل `best_model_xxl.pth` غير موجود! يرجى تحميله أولاً.",
+        "loading_model": "⏳ جارٍ تحميل نموذج الذكاء الاصطناعي (XXL)... يرجى الانتظار..."
+    },
+    "en": {
+        "page_title": "AI ASAG System",
+        "sidebar_title": "🎓 ASAG System",
+        "sidebar_info": """
+        **Automated Short Answer Grading System**
+        Powered by:
+        - **DeBERTa-v3-Large** (Fine-tuned).
+        - **Hybrid Feedback Engine**.
+        Developed by: **Project Team**
+        """,
+        "main_title": "🧙‍♂️ AI Grader",
+        "question_label": "✍️ Question Text:",
+        "question_placeholder": "Enter the question here...",
+        "model_answer_label": "🔑 Model Answer:",
+        "model_answer_placeholder": "The correct answer...",
+        "student_answer_label": "👨‍🎓 Student Answer:",
+        "student_answer_placeholder": "Answer to be graded...",
+        "analyze_btn": "🚀 Analyze & Grade",
+        "warning_fill_fields": "⚠️ Please fill in all fields first!",
+        "progress_analyzing": "Analyzing semantics...",
+        "progress_measuring": "Measuring similarity...",
+        "progress_done": "Done!",
+        "final_score": "🏆 Final Score: **{total:.2f} / 5.0**",
+        "metric_c1": "Content Accuracy (C1)",
+        "metric_c2": "Logical Flow (C2)",
+        "metric_c3": "Language Quality (C3)",
+        "details_title": "### 📊 Grading Details:",
+        "caption_c1": "Content Accuracy (Scientific)",
+        "caption_c2": "Logic & Flow",
+        "feedback_title": "### 💬 AI Feedback:",
+        "error_model_not_found": "🚨 Error: Model file `best_model_xxl.pth` not found! Please download it first.",
+        "loading_model": "⏳ Loading AI Model (XXL)... Please wait..."
+    }
+}