recitation-segmenter-app-API

Runtime error

App Files Files Community

aboalaa147 commited on Dec 19, 2025

Commit

93057e6

verified ·

1 Parent(s): 382faa1

Update app.py

Browse files

Files changed (1) hide show

app.py +97 -199

app.py CHANGED Viewed

@@ -12,7 +12,12 @@ import tempfile
 import os
 import zipfile
 # Setup device and model
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
 dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
@@ -25,8 +30,13 @@ model = AutoModelForAudioFrameClassification.from_pretrained(
 )
 print("Model loaded successfully!")
 def read_audio(path, sampling_rate=16000):
-    """قراءة ملف صوتي وتحويله"""
     audio, sr = sf.read(path)
     if len(audio.shape) > 1:
         audio = audio.mean(axis=1)
@@ -34,75 +44,38 @@ def read_audio(path, sampling_rate=16000):
         audio = librosa.resample(audio, orig_sr=sr, target_sr=sampling_rate)
     return torch.tensor(audio).float()
-def get_interval(x: np.ndarray, intervals: list[list[int]], idx: int, sr=16000, delta=0.3, exact_boundries=False):
-    """استخراج مقطع صوتي من الفواصل"""
-    start = int((intervals[idx][0] - delta) * sr)
     end = int(intervals[idx][1] * sr)
-    if not exact_boundries:
-        start = 0 if idx == 0 else int((intervals[idx][0] - delta) * sr)
-        end = len(x) if idx == len(intervals) - 1 else int((intervals[idx + 1][0] - delta) * sr)
-    return x[start: end]
-def plot_signal(x: np.ndarray, intervals: list[list[float]], log_min_count=5, sr=16000):
-    """رسم الإشارة الصوتية مع الفواصل"""
     fig, ax = plt.subplots(figsize=(20, 4))
     if isinstance(x, torch.Tensor):
         x = x.numpy()
     ax.plot(x, linewidth=0.5)
-    intervals_flat = np.array(intervals).reshape(-1)
-    diffs = np.diff(intervals_flat)
-    min_silence_diffs_idx = float('-inf')
-    info_text = ""
-    if len(intervals_flat) > 2:
-        silence_diffs = diffs[1: len(diffs): 2]
-        min_silence_diffs_ids = silence_diffs.argsort()[: log_min_count]
-        min_silence_diffs_idx = min_silence_diffs_ids[0] * 2 + 1
-        info_text += f'Minimum Silence Interval IDs: {min_silence_diffs_ids}\n'
-        info_text += f'Minimum Silence Intervals: {silence_diffs[min_silence_diffs_ids]}\n'
-        speech_diffs = diffs[0: len(diffs): 2]
-        min_speech_diffs_ids = speech_diffs.argsort()[: log_min_count]
-        info_text += f'Minimum Speech Interval IDs: {min_speech_diffs_ids}\n'
-        info_text += f'Minimum Speech Intervals: {speech_diffs[min_speech_diffs_ids]}\n'
-    ymin = x.min()
-    ymax = x.max()
-    for idx, val in enumerate(intervals_flat):
-        color = 'red'
-        if idx in [min_silence_diffs_idx, min_silence_diffs_idx + 1]:
-            color = 'green'
-        ax.axvline(x=val * sr, ymin=0, ymax=1, color=color, alpha=0.6, linewidth=1)
-    ax.set_xlabel('Samples')
-    ax.set_ylabel('Amplitude')
-    ax.set_title('Audio Signal with Detected Intervals')
-    ax.grid(True, alpha=0.3)
     plt.tight_layout()
     buf = io.BytesIO()
-    plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
     buf.seek(0)
     img = Image.open(buf)
     plt.close()
-    return img, info_text
 def process_audio(audio_file, min_silence_ms, min_speech_ms, pad_ms):
-    """معالجة الملف الصوتي وتقطيعه"""
     if audio_file is None:
-        return None, "⚠️ من فضلك ارفع ملف صوتي", None, []
     try:
-        # قراءة الملف
         wav = read_audio(audio_file)
-        # تقسيم التلاوة
         sampled_outputs = segment_recitations(
             [wav],
             model,
@@ -111,8 +84,7 @@ def process_audio(audio_file, min_silence_ms, min_speech_ms, pad_ms):
             dtype=dtype,
             batch_size=4,
         )
-        # تنظيف الفواصل
         clean_out = clean_speech_intervals(
             sampled_outputs[0].speech_intervals,
             sampled_outputs[0].is_complete,
@@ -121,165 +93,91 @@ def process_audio(audio_file, min_silence_ms, min_speech_ms, pad_ms):
             pad_duration_ms=pad_ms,
             return_seconds=True,
         )
         intervals = clean_out.clean_speech_intervals
-        # رسم الإشارة
-        plot_img, stats_text = plot_signal(wav, intervals)
-        # استخراج المقاطع الصوتية
-        num_segments = len(intervals)
-        result_text = f"✅ تم التقط��ع بنجاح!\n\n"
-        result_text += f"📊 عدد المقاطع: {num_segments}\n"
-        result_text += f"⏱️ طول الملف الأصلي: {len(wav)/16000:.2f} ثانية\n\n"
-        result_text += "=" * 50 + "\n"
-        result_text += stats_text
-        result_text += "=" * 50 + "\n\n"
-        # إنشاء مجلد مؤقت للمقاطع
         temp_dir = tempfile.mkdtemp()
         segment_files = []
-        for idx in range(num_segments):
-            audio_seg = get_interval(
-                x=wav,
-                intervals=intervals,
-                idx=idx,
-                delta=0.050,
-                exact_boundries=True
             )
-            if isinstance(audio_seg, torch.Tensor):
-                audio_seg = audio_seg.cpu().numpy()
-            duration = len(audio_seg) / 16000
-            result_text += f"مقطع {idx + 1}: من {intervals[idx][0]:.2f}s إلى {intervals[idx][1]:.2f}s (المدة: {duration:.2f}s)\n"
-            # حفظ المقطع
-            segment_path = os.path.join(temp_dir, f"segment_{idx+1:03d}.wav")
-            sf.write(segment_path, audio_seg, 16000)
-            segment_files.append(segment_path)
-        # إنشاء ملف ZIP
         zip_path = os.path.join(temp_dir, "segments.zip")
         with zipfile.ZipFile(zip_path, 'w') as zipf:
-            for seg_file in segment_files:
-                zipf.write(seg_file, os.path.basename(seg_file))
-        # إنشاء HTML لعرض المقاطع
-        audio_html = "<div style='max-height: 500px; overflow-y: auto;'>"
-        for idx, seg_file in enumerate(segment_files):
-            audio_html += f"""
-            <div style='margin: 10px 0; padding: 10px; border: 1px solid #ddd; border-radius: 5px;'>
-                <h4 style='margin: 5px 0;'>🎵 مقطع {idx + 1}</h4>
-                <audio controls style='width: 100%;'>
-                    <source src='file/{seg_file}' type='audio/wav'>
-                </audio>
-            </div>
-            """
-        audio_html += "</div>"
         return plot_img, result_text, zip_path, segment_files
     except Exception as e:
-        return None, f"❌ حدث خطأ: {str(e)}", None, []
-# إنشاء واجهة Gradio
-with gr.Blocks(title="تقطيع التلاوات القرآنية") as demo:
-    gr.Markdown("""
-    # 🕌 تقطيع التلاوات القرآنية
-    أداة لتقطيع ملفات التلاوات القرآنية تلقائياً باستخدام AI
-    **استخدم Model:** `obadx/recitation-segmenter-v2`
-    """)
     with gr.Row():
-        with gr.Column(scale=1):
-            audio_input = gr.Audio(
-                label="📤 ارفع ملف التلاوة",
-                type="filepath"
-            )
-            with gr.Accordion("⚙️ إعدادات التقطيع", open=True):
-                min_silence = gr.Slider(
-                    minimum=10,
-                    maximum=500,
-                    value=30,
-                    step=10,
-                    label="أقل مدة للسكوت (ميلي ثانية)"
-                )
-                min_speech = gr.Slider(
-                    minimum=10,
-                    maximum=500,
-                    value=30,
-                    step=10,
-                    label="أقل مدة للكلام (ميلي ثانية)"
-                )
-                padding = gr.Slider(
-                    minimum=0,
-                    maximum=200,
-                    value=30,
-                    step=10,
-                    label="Padding (ميلي ثانية)"
-                )
-            process_btn = gr.Button("🚀 ابدأ التقطيع", variant="primary", size="lg")
-        with gr.Column(scale=2):
-            plot_output = gr.Image(label="📈 الإشارة الصوتية")
-            result_text = gr.Textbox(
-                label="📋 النتائج",
-                lines=15,
-                max_lines=20
-            )
-    gr.Markdown("### 💾 تحميل المقاطع")
-    zip_download = gr.File(label="📦 حمل كل المقاطع (ZIP)")
-    gr.Markdown("### 🎵 استماع للمقاطع")
-    # عرض المقاطع الصوتية
-    segment_outputs = []
-    for i in range(50):  # حد أقصى 50 مقطع
-        audio_out = gr.Audio(label=f"مقطع {i+1}", visible=False)
-        segment_outputs.append(audio_out)
-    def process_and_show(audio, min_sil, min_sp, pad):
-        plot, text, zip_file, segments = process_audio(audio, min_sil, min_sp, pad)
-        outputs = [plot, text, zip_file]
-        # إظهار المقاطع
         for i in range(50):
             if i < len(segments):
-                outputs.append(gr.Audio(value=segments[i], visible=True, label=f"مقطع {i+1}"))
             else:
                 outputs.append(gr.Audio(visible=False))
         return outputs
-    process_btn.click(
-        fn=process_and_show,
         inputs=[audio_input, min_silence, min_speech, padding],
-        outputs=[plot_output, result_text, zip_download] + segment_outputs
     )
-    gr.Markdown("""
-    ---
-    ### 💡 معلومات
-    - الأداة تستخدم نموذج AI مدرب خصيصاً لتقطيع التلاوات القرآنية
-    - يتم اكتشاف فترات الكلام والسكوت تلقائياً
-    - يمكنك تحميل كل المقاطع دفعة واحدة من ملف ZIP
-    - أو الاستماع لكل مقطع على حدة
-    """)
 if __name__ == "__main__":
     demo.launch()

 import os
 import zipfile
+# 🔹 ASR client
+from gradio_client import Client, handle_file
+# ======================
 # Setup device and model
+# ======================
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
 dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
 )
 print("Model loaded successfully!")
+# 🔹 ASR Space
+asr_client = Client("aboalaa1472/Quran_ASR")
+# ======================
+# Utils
+# ======================
 def read_audio(path, sampling_rate=16000):
     audio, sr = sf.read(path)
     if len(audio.shape) > 1:
         audio = audio.mean(axis=1)
         audio = librosa.resample(audio, orig_sr=sr, target_sr=sampling_rate)
     return torch.tensor(audio).float()
+def get_interval(x, intervals, idx, sr=16000):
+    start = int(intervals[idx][0] * sr)
     end = int(intervals[idx][1] * sr)
+    return x[start:end]
+def plot_signal(x, intervals, sr=16000):
     fig, ax = plt.subplots(figsize=(20, 4))
     if isinstance(x, torch.Tensor):
         x = x.numpy()
     ax.plot(x, linewidth=0.5)
+    for s, e in intervals:
+        ax.axvline(x=s * sr, color='red', alpha=0.4)
+        ax.axvline(x=e * sr, color='red', alpha=0.4)
     plt.tight_layout()
     buf = io.BytesIO()
+    plt.savefig(buf, format="png")
     buf.seek(0)
     img = Image.open(buf)
     plt.close()
+    return img
+# ======================
+# Main processing
+# ======================
 def process_audio(audio_file, min_silence_ms, min_speech_ms, pad_ms):
     if audio_file is None:
+        return None, "⚠️ ارفع ملف صوتي", None, []
     try:
         wav = read_audio(audio_file)
         sampled_outputs = segment_recitations(
             [wav],
             model,
             dtype=dtype,
             batch_size=4,
         )
         clean_out = clean_speech_intervals(
             sampled_outputs[0].speech_intervals,
             sampled_outputs[0].is_complete,
             pad_duration_ms=pad_ms,
             return_seconds=True,
         )
         intervals = clean_out.clean_speech_intervals
+        plot_img = plot_signal(wav, intervals)
         temp_dir = tempfile.mkdtemp()
         segment_files = []
+        full_asr_text = []
+        result_text = f"✅ عدد المقاطع: {len(intervals)}\n\n"
+        for i in range(len(intervals)):
+            seg = get_interval(wav, intervals, i)
+            if isinstance(seg, torch.Tensor):
+                seg = seg.cpu().numpy()
+            seg_path = os.path.join(temp_dir, f"segment_{i+1:03d}.wav")
+            sf.write(seg_path, seg, 16000)
+            segment_files.append(seg_path)
+            # 🔹 ASR CALL
+            asr_text = asr_client.predict(
+                uploaded_audio=handle_file(seg_path),
+                mic_audio=handle_file(seg_path),
+                api_name="/run"
+            )
+            full_asr_text.append(asr_text)
+            result_text += (
+                f"🎵 مقطع {i+1} "
+                f"({intervals[i][0]:.2f}s → {intervals[i][1]:.2f}s)\n"
+                f"📜 {asr_text}\n\n"
             )
+        result_text += "\n🧾 النص الكامل:\n"
+        result_text += " ".join(full_asr_text)
+        # ZIP
         zip_path = os.path.join(temp_dir, "segments.zip")
         with zipfile.ZipFile(zip_path, 'w') as zipf:
+            for f in segment_files:
+                zipf.write(f, os.path.basename(f))
         return plot_img, result_text, zip_path, segment_files
     except Exception as e:
+        return None, f"❌ خطأ: {str(e)}", None, []
+# ======================
+# Gradio UI
+# ======================
+with gr.Blocks(title="Quran Segmentation + ASR") as demo:
+    gr.Markdown("## 🕌 تقطيع التلاوات + التعرف على النص القرآني (ASR)")
     with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(type="filepath", label="📤 ارفع التلاوة")
+            min_silence = gr.Slider(10, 500, 30, step=10, label="Min Silence (ms)")
+            min_speech = gr.Slider(10, 500, 30, step=10, label="Min Speech (ms)")
+            padding = gr.Slider(0, 200, 30, step=10, label="Padding (ms)")
+            btn = gr.Button("🚀 ابدأ")
+        with gr.Column():
+            plot_out = gr.Image(label="📈 الإشارة")
+            text_out = gr.Textbox(lines=20, label="📜 النص")
+    zip_out = gr.File(label="📦 تحميل المقاطع")
+    segment_outputs = [gr.Audio(visible=False) for _ in range(50)]
+    def process_and_show(audio, ms, sp, pad):
+        plot, text, zipf, segments = process_audio(audio, ms, sp, pad)
+        outputs = [plot, text, zipf]
         for i in range(50):
             if i < len(segments):
+                outputs.append(gr.Audio(value=segments[i], visible=True))
             else:
                 outputs.append(gr.Audio(visible=False))
         return outputs
+    btn.click(
+        process_and_show,
         inputs=[audio_input, min_silence, min_speech, padding],
+        outputs=[plot_out, text_out, zip_out] + segment_outputs
     )
 if __name__ == "__main__":
     demo.launch()