voisclone

Paused

App Files Files Community

najimq59 commited on May 25, 2025

Commit

bc8d671

verified ·

1 Parent(s): 9204a45

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -114

app.py CHANGED Viewed

@@ -2,11 +2,9 @@ import gradio as gr
 import os
 import torch
 from TTS.api import TTS # مكتبة Coqui TTS
-from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq # لـ Whisper ASR
-import soundfile as sf
-import numpy as np
-# --- 1. تحميل النماذج (يتم مرة واحدة عند بدء التطبيق) ---
 # هذا الجزء يستغرق وقتاً طويلاً ويستهلك ذاكرة كبيرة.
 # يفضل وضع النماذج في Cache Hugging Face إذا أمكن.
@@ -16,118 +14,68 @@ print(f"Using device: {DEVICE}")
 # تحميل نموذج Coqui TTS (XTTS-v2)
 # هذا النموذج هو الذي يقوم باستنساخ الصوت وتحويل النص إلى كلام
 try:
     tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=torch.cuda.is_available())
     print("Coqui TTS XTTS-v2 model loaded successfully.")
 except Exception as e:
     print(f"Error loading Coqui TTS model: {e}")
-    tts = None # للدلالة على فشل التحميل
-# تحميل نموذج Whisper للتعرف على الكلام (ASR)
-# whisper-tiny هو نموذج صغير نسبياً ولكنه جيد للتعربية
-try:
-    asr_processor = AutoProcessor.from_pretrained("openai/whisper-tiny")
-    asr_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-tiny").to(DEVICE)
-    print("Whisper Tiny ASR model loaded successfully.")
-except Exception as e:
-    print(f"Error loading Whisper ASR model: {e}")
-    asr_processor = None
-    asr_model = None
 # --- 2. تعريف وظائف التطبيق ---
 # دالة لتخزين مسار الصوت المرجعي المستنسخ
-def set_reference_audio(audio_path):
     if not audio_path:
-        return None, "خطأ: لم يتم تسجيل أو رفع صوت لنسخه."
-    # Gradio يمرر مساراً مؤقتاً للملفات الصوتية المسجلة/المرفوعة.
-    # سنقوم بتخزينه في gr.State.
     print(f"Reference audio set to: {audio_path}")
-    return audio_path, "تم تحميل الصوت المرجعي بنجاح! يمكنك الآن تجربة الميزات."
 # دالة لتحويل النص إلى كلام بالصوت المستنسخ (Text-to-Speech)
 def synthesize_text(reference_audio_path, text_input):
     if not tts:
-        return None, "خطأ: نموذج استنساخ الصوت لم يتم تحميله بشكل صحيح."
     if not reference_audio_path:
-        return None, "خطأ: يرجى أولاً تسجيل أو رفع صوت لنسخه."
     if not text_input:
         return None, "خطأ: يرجى إدخال نص لتحويله."
     try:
         # XTTS-v2 يدعم لغات متعددة، بما في ذلك العربية (ar)
-        # سيقوم النموذج باستخدام speaker_wav (الصوت المرجعي) لاستنساخ الصوت
-        # ويقوم بتحويل النص text_input باللغة "ar".
         output_file = "output_tts.wav"
         tts.tts_to_file(
             text=text_input,
             speaker_wav=reference_audio_path,
-            language="ar",
             file_path=output_file
         )
         print(f"Text-to-Speech generated: {output_file}")
         return output_file, "تم تحويل النص إلى صوت بنجاح!"
     except Exception as e:
         print(f"Error during TTS synthesis: {e}")
-        return None, f"خطأ أثناء تحويل النص إلى صوت: {e}"
-# دالة لتحويل الكلام إلى كلام بالصوت المستنسخ (Speech-to-Speech)
-# هذا يتضمن ASR (تحويل الكلام إلى نص) ثم TTS (تحويل النص إلى كلام مستنسخ)
-def process_speech(reference_audio_path, input_speech_path):
-    if not tts:
-        return None, "خطأ: نموذج استنساخ الصوت لم يتم تحميله بشكل صحيح."
-    if not asr_model or not asr_processor:
-        return None, "خطأ: نموذج التعرف على الكلام (ASR) لم يتم تحميله بشكل صحيح."
-    if not reference_audio_path:
-        return None, "خطأ: يرجى أولاً تسجيل أو رفع صوت لنسخه."
-    if not input_speech_path:
-        return None, "خطأ: يرجى تسجيل أو رفع صوت لكي يتم نطقه."
-    try:
-        # 1. تحويل الكلام المدخل إلى نص (ASR)
-        # قراءة الملف الصوتي المدخل
-        audio_data, sample_rate = sf.read(input_speech_path)
-        # قد يحتاج Whisper إلى 16kHz
-        if sample_rate != 16000:
-            # يجب إعادة أخذ العينات إذا لم يكن 16 كيلو هرتز
-            # هذا يتطلب مكتبات مثل librosa أو torchaudio،
-            # لتبسيط الأمر، سنفترض أن Gradio يضمن 16kHz أو سيهمل.
-            # الأفضل استخدام torchaudio.transforms.Resample
-            pass # في بيئات Gradio، غالباً ما يتم إعادة أخذ العينات تلقائياً
-        # معالجة الصوت لـ Whisper
-        input_features = asr_processor(audio_data, sampling_rate=sample_rate, return_tensors="pt").input_features
-        input_features = input_features.to(DEVICE) # نقل إلى GPU إن وجد
-        # توليد الرموز المميزة (tokens)
-        predicted_ids = asr_model.generate(input_features)
-        # تحويل الرموز المميزة إلى نص
-        transcribed_text = asr_processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-        print(f"Transcribed text: {transcribed_text}")
-        if not transcribed_text.strip():
-            return None, "خطأ: لم يتم التعرف على أي كلام واضح في التسجيل الصوتي المدخل."
-        # 2. تحويل النص المعرف إلى كلام بالصوت المستنسخ (TTS)
-        output_file = "output_sts.wav"
-        tts.tts_to_file(
-            text=transcribed_text,
-            speaker_wav=reference_audio_path,
-            language="ar", # تحديد اللغة العربية
-            file_path=output_file
-        )
-        print(f"Speech-to-Speech generated: {output_file}")
-        return output_file, f"تم التعرف على النص: '{transcribed_text}' وتم نطقه بالصوت المستنسخ بنجاح!"
-    except Exception as e:
-        print(f"Error during STS processing: {e}")
-        return None, f"خطأ أثناء معالجة الكلام: {e}"
 # --- 3. بناء واجهة Gradio ---
-with gr.Blocks(theme="soft", title="تطبيق استنساخ الصوت") as demo:
-    gr.Markdown("# تطبيق استنساخ الصوت")
-    gr.Markdown("قم بتسجيل أو رفع صوت مرجعي (5-10 ثواني على الأقل) لاستنساخه، ثم استخدمه لتحويل النص أو الكلام إلى صوت.")
     # متغير الحالة لتخزين مسار الصوت المرجعي
     reference_audio_path_state = gr.State(None)
@@ -153,30 +101,15 @@ with gr.Blocks(theme="soft", title="تطبيق استنساخ الصوت") as de
         synthesize_btn = gr.Button("تحويل النص إلى صوت")
         tts_status_msg = gr.Markdown("")
-    # قسم تحويل الكلام إلى كلام (Speech-to-Speech)
-    with gr.Column(elem_id="sts_section"):
-        gr.Markdown("## 3. تحويل الكلام إلى كلام (STS)")
-        gr.Markdown("**(يتطلب التعرف على الكلام أولاً)**")
-        with gr.Row():
-            record_input_speech = gr.Audio(
-                sources=["microphone"], type="filepath", label="سجل الصوت الذي تريد أن ينطق بصوتك المستنسخ"
-            )
-            upload_input_speech = gr.Audio(
-                sources=["upload"], type="filepath", label="أو ارفع ملف صوتي لينطق بصوتك المستنسخ"
-            )
-        sts_output = gr.Audio(label="الصوت المستنسخ (من كلامك)", autoplay=True)
-        process_speech_btn = gr.Button("نطق الكلام بالصوت المستنسخ")
-        sts_status_msg = gr.Markdown("")
-    # رسالة تحذير حول الموارد والأداء
     gr.Markdown("""
     <p style="font-size: 0.9em; color: #a00; margin-top: 30px; padding-top: 15px; border-top: 1px dashed #f00; text-align: center; font-weight: bold;">
-        ⚠️ ملاحظة هامة: هذا التطبيق يستخدم نماذج ذكاء اصطناعي كبيرة.
         <br>
-        *   **سيستغرق التحميل الأولي وقتاً طويلاً جداً (عدة دقائق).**
         *   **يوصى بشدة باستخدام موارد GPU (مثل T4 Small) للحصول على أداء مقبول.**
-        *   على موارد CPU (Basic)، قد تكون العمليات بطيئة للغاية أو تفشل بسبب تجاوز المهلة.
-        *   جودة الاستنساخ تعتمد بشكل كبير على جودة ومدة الصوت المرجعي.
     </p>
     """, elem_id="disclaimer")
@@ -185,10 +118,9 @@ with gr.Blocks(theme="soft", title="تطبيق استنساخ الصوت") as de
     # عند النقر على "تحديد الصوت المرجعي"
     set_ref_audio_btn.click(
         fn=set_reference_audio,
-        inputs=[record_ref_audio_input, upload_ref_audio_input], # نستخدم المدخلين
         outputs=[reference_audio_path_state, ref_status_msg]
     )
-    # ملاحظة: Gradio يمكنه تمرير قيمة أحد المدخلين إذا كان الآخر فارغاً.
     # عند النقر على "تحويل النص إلى صوت"
     synthesize_btn.click(
@@ -197,15 +129,6 @@ with gr.Blocks(theme="soft", title="تطبيق استنساخ الصوت") as de
         outputs=[tts_output, tts_status_msg]
     )
-    # عند النقر على "نطق الكلام بالصوت المستنسخ"
-    process_speech_btn.click(
-        fn=process_speech,
-        inputs=[reference_audio_path_state, record_input_speech, upload_input_speech],
-        outputs=[sts_output, sts_status_msg]
-    )
-    # ملاحظة: سنحتاج لدمج مدخلات record_input_speech و upload_input_speech في دالة process_speech
-    # Gradio سيمرر القيمة الموجودة (المسجلة أو المرفوعة).
 # تشغيل التطبيق
 if __name__ == "__main__":
     demo.launch()

 import os
 import torch
 from TTS.api import TTS # مكتبة Coqui TTS
+import soundfile as sf # للتعامل مع الملفات الصوتية (Coqui TTS قد تستخدمها داخلياً)
+# --- 1. تحميل النموذج (يتم مرة واحدة عند بدء التطبيق) ---
 # هذا الجزء يستغرق وقتاً طويلاً ويستهلك ذاكرة كبيرة.
 # يفضل وضع النماذج في Cache Hugging Face إذا أمكن.
 # تحميل نموذج Coqui TTS (XTTS-v2)
 # هذا النموذج هو الذي يقوم باستنساخ الصوت وتحويل النص إلى كلام
+tts = None # تهيئة المتغير
 try:
     tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=torch.cuda.is_available())
     print("Coqui TTS XTTS-v2 model loaded successfully.")
 except Exception as e:
     print(f"Error loading Coqui TTS model: {e}")
+    # إذا فشل التحميل، لن يكون tts متاحاً وستظهر رسالة خطأ للمستخدم.
 # --- 2. تعريف وظائف التطبيق ---
 # دالة لتخزين مسار الصوت المرجعي المستنسخ
+# تتلقى مسار الصوت من مدخل الميكروفون أو من مدخل رفع الملفات
+def set_reference_audio(mic_path, upload_path):
+    audio_path = None
+    if mic_path:
+        audio_path = mic_path
+    elif upload_path:
+        audio_path = upload_path
     if not audio_path:
+        return None, "خطأ: لم يتم تسجيل أو رفع صوت لنسخه. يرجى المحاولة مرة أخرى."
+    # التأكد من أن الملف الصوتي صالح للقراءة
+    try:
+        # اختبار قراءة الملف للتأكد من سلامته وقابليته للوصول
+        # بعض الأحيان Gradio يمرر مساراً غير صالح أو فارغاً.
+        # sf.read سيقوم بفحص الملف
+        sf.read(audio_path)
+    except Exception as e:
+        return None, f"خطأ في قراءة الملف الصوتي: {e}. تأكد من أنه ملف صوتي صالح."
     print(f"Reference audio set to: {audio_path}")
+    return audio_path, "تم تحميل الصوت المرجعي بنجاح! يمكنك الآن تحويل النص إلى صوتك المستنسخ."
 # دالة لتحويل النص إلى كلام بالصوت المستنسخ (Text-to-Speech)
 def synthesize_text(reference_audio_path, text_input):
     if not tts:
+        return None, "خطأ: نموذج استنساخ الصوت لم يتم تحميله بشكل صحيح عند بدء التطبيق. الرجاء التحقق من سجلات Space."
     if not reference_audio_path:
+        return None, "خطأ: يرجى أولاً تسجيل أو رفع صوت لنسخه وتحديده."
     if not text_input:
         return None, "خطأ: يرجى إدخال نص لتحويله."
     try:
         # XTTS-v2 يدعم لغات متعددة، بما في ذلك العربية (ar)
         output_file = "output_tts.wav"
         tts.tts_to_file(
             text=text_input,
             speaker_wav=reference_audio_path,
+            language="ar", # تحديد اللغة العربية
             file_path=output_file
         )
         print(f"Text-to-Speech generated: {output_file}")
         return output_file, "تم تحويل النص إلى صوت بنجاح!"
     except Exception as e:
         print(f"Error during TTS synthesis: {e}")
+        return None, f"خطأ أثناء تحويل النص إلى صوت: {e}. تأكد من جودة الصوت المرجعي."
 # --- 3. بناء واجهة Gradio ---
+with gr.Blocks(theme="soft", title="تطبيق استنساخ الصوت (TTS)") as demo:
+    gr.Markdown("# تطبيق استنساخ الصوت (تحويل النص إلى كلام)")
+    gr.Markdown("قم بتسجيل أو رفع **صوت مرجعي واضح (5-10 ثواني على الأقل)** لاستنساخه، ثم استخدمه لتحويل النص إلى صوتك المستنسخ.")
     # متغير الحالة لتخزين مسار الصوت المرجعي
     reference_audio_path_state = gr.State(None)
         synthesize_btn = gr.Button("تحويل النص إلى صوت")
         tts_status_msg = gr.Markdown("")
+    # رسالة تحذير حول الموارد والأداء (مهمة جداً)
     gr.Markdown("""
     <p style="font-size: 0.9em; color: #a00; margin-top: 30px; padding-top: 15px; border-top: 1px dashed #f00; text-align: center; font-weight: bold;">
+        ⚠️ ملاحظة هامة: هذا التطبيق يستخدم نموذج ذكاء اصطناعي كبير (XTTS-v2).
         <br>
+        *   **سيستغرق التحميل الأولي (عند بدء Space) وقتاً طويلاً جداً (عدة دقائق).**
         *   **يوصى بشدة باستخدام موارد GPU (مثل T4 Small) للحصول على أداء مقبول.**
+        *   على موارد CPU (Basic)، قد تكون العمليات بطيئة للغاية أو تفشل بسبب تجاوز المهلة أو نفاد الذاكرة.
+        *   جودة الاستنساخ تعتمد بشكل كبير على وضوح ونقاء الصوت المرجعي الذي تقدمه.
     </p>
     """, elem_id="disclaimer")
     # عند النقر على "تحديد الصوت المرجعي"
     set_ref_audio_btn.click(
         fn=set_reference_audio,
+        inputs=[record_ref_audio_input, upload_ref_audio_input],
         outputs=[reference_audio_path_state, ref_status_msg]
     )
     # عند النقر على "تحويل النص إلى صوت"
     synthesize_btn.click(
         outputs=[tts_output, tts_status_msg]
     )
 # تشغيل التطبيق
 if __name__ == "__main__":
     demo.launch()