Spaces:

GannaEslam38
/

whisper_code-switching

Sleeping

App Files Files Community

GannaEslam38 commited on Nov 30, 2025

Commit

e629d9f

verified ·

1 Parent(s): 3d3b19d

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -22

app.py CHANGED Viewed

@@ -1,55 +1,72 @@
 import torch
 from transformers import pipeline
 import gradio as gr
 # 1. تحديد المعرف الخاص بالنموذج
 MODEL_ID = "MohamedRashad/Arabic-Whisper-CodeSwitching-Edition"
-# تحديد الجهاز المستخدم
 device = 0 if torch.cuda.is_available() else "cpu"
 # 2. تحميل النموذج عبر الـ Pipeline
-# استخدام "automatic-speech-recognition" pipeline
 try:
     print("Loading ASR pipeline (Whisper)...")
     asr_pipeline = pipeline(
         "automatic-speech-recognition",
         model=MODEL_ID,
         device=device,
-        # يمكن استخدام torch_dtype=torch.float16 لو كان الجهاز يدعم GPU، ولكني سأبقيها بسيطة
     )
     print("Pipeline loaded successfully.")
 except Exception as e:
-    # التحميل بطريقة يدوية بديلة إذا فشل الـ pipeline
-    print(f"Error loading pipeline: {e}. Attempting manual load...")
-    from transformers import WhisperForConditionalGeneration, WhisperProcessor
-    processor = WhisperProcessor.from_pretrained(MODEL_ID)
-    model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID).to(device).eval()
-    asr_pipeline = lambda audio_path: {
-        "text": processor.batch_decode(
-            model.generate(processor(audio_path, return_tensors="pt").input_features.to(device)),
-            skip_special_tokens=True
-        )[0]
-    }
-# 3. دالة النسخ الصوتي
 def transcribe_audio(audio_path):
-    """تحول ملف الصوت إلى نص باستخدام نموذج Whisper ASR."""
     if audio_path is None:
         return "يرجى تحميل ملف صوتي أولاً."
-    # لا نحتاج إلى منطق التقسيم المعقد، ولكن نموذج Whisper يمكن أن يستفيد من تلميح اللغة
-    # يتم تمرير ملف الصوت مباشرة إلى الـ pipeline
-    # يتم التعامل مع التسجيلات الطويلة تلقائيًا بواسطة pipeline
     try:
-        result = asr_pipeline(audio_path)
-        return result["text"].strip()
     except Exception as e:
         return f"حدث خطأ أثناء معالجة الصوت: {e}"
 # 4. إعداد واجهة Gradio
 title = "👳 Arabic-Whisper-CodeSwitching-Edition"
 description = (

 import torch
 from transformers import pipeline
 import gradio as gr
+import os
 # 1. تحديد المعرف الخاص بالنموذج
 MODEL_ID = "MohamedRashad/Arabic-Whisper-CodeSwitching-Edition"
+# تحديد الجهاز المستخدم (GPU أو CPU)
+# يفضل استخدام 0 للجهاز الأول (GPU) إذا كان متاحاً، وإلا نستخدم "cpu"
 device = 0 if torch.cuda.is_available() else "cpu"
+print(f"Device set to use: {device}")
 # 2. تحميل النموذج عبر الـ Pipeline
 try:
     print("Loading ASR pipeline (Whisper)...")
+    # تحميل النموذج باستخدام pipeline
     asr_pipeline = pipeline(
         "automatic-speech-recognition",
         model=MODEL_ID,
         device=device,
     )
     print("Pipeline loaded successfully.")
 except Exception as e:
+    # هذا الجزء يمكن حذفه إذا كنت واثقاً من تحميل الـ pipeline
+    print(f"Error loading pipeline: {e}. Falling back to error message.")
+    asr_pipeline = None
+# 3. دالة النسخ الصوتي (مع معالجة التقسيم للملفات الطويلة)
 def transcribe_audio(audio_path):
+    """تحول ملف الصوت إلى نص باستخدام نموذج Whisper ASR، مع تقسيم للملفات الطويلة."""
+    if asr_pipeline is None:
+        return "خطأ: لم يتم تحميل النموذج بنجاح عند بدء التشغيل."
     if audio_path is None:
         return "يرجى تحميل ملف صوتي أولاً."
+    print(f"Processing audio file: {audio_path}")
     try:
+        # استخدام التقسيم (Chunking) لمعالجة الملفات الطويلة (أفضل دقة واستقرار)
+        # تقسيم الصوت إلى مقاطع 30 ثانية، مع تداخل 5 ثواني لضمان عدم فقدان السياق
+        result = asr_pipeline(
+            audio_path,
+            chunk_length_s=30,      # طول المقطع الأقصى (30 ثانية)
+            stride=(5, 5),          # تداخل 5 ثواني بين المقاطع
+            return_timestamps=True  # هذا ضروري لتشغيل وضع التقسيم
+        )
+        # النتيجة تحتوي على قاموس يضم key اسمه 'chunks' أو 'text'
+        # نجمع النصوص من جميع المقاطع لإنتاج النص النهائي
+        if 'chunks' in result and isinstance(result['chunks'], list):
+            segments_text = [seg['text'] for seg in result['chunks']]
+            final_text = " ".join(segments_text).strip()
+        elif 'text' in result:
+             final_text = result['text'].strip()
+        else:
+             final_text = "حدث خطأ في استخراج النص من نتيجة النموذج."
+        return final_text
     except Exception as e:
+        # قد يحدث هذا الخطأ إذا كان الملف غير صالح أو واجه النموذج مشكلة في الذاكرة
         return f"حدث خطأ أثناء معالجة الصوت: {e}"
 # 4. إعداد واجهة Gradio
 title = "👳 Arabic-Whisper-CodeSwitching-Edition"
 description = (