Ttspro

Running

App Files Files Community

Hamed744 commited on May 27, 2025

Commit

59d09f0

verified ·

1 Parent(s): 3090f63

Update app.py

Browse files

Files changed (1) hide show

app.py +81 -129

app.py CHANGED Viewed

@@ -1,198 +1,150 @@
 # app.py
 import gradio as gr
 import google.generativeai as genai
 import os
 import io
-# از scipy.io.wavfile استفاده نمی‌کنیم اگر API مستقیم بایت‌های WAV برمی‌گرداند
-# یا اگر فرمت دیگری برمی‌گرداند و ما با روش دیگری به WAV تبدیل می‌کنیم.
-# فعلاً آن را نگه می‌داریم تا ببینیم خروجی API چیست.
 from scipy.io.wavfile import write as write_wav
-import numpy as np # برای کار با آرایه‌های صوتی اگر لازم شد
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
     raise ValueError("GOOGLE_API_KEY not found in environment variables.")
 genai.configure(api_key=GOOGLE_API_KEY)
-TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts" # بر اساس پیام خطا، پیشوند models/ لازم است
-def generate_audio(text_to_speak):
     if not text_to_speak:
         raise gr.Error("لطفاً متنی را برای تبدیل به صدا وارد کنید.")
-    print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...'")
     try:
-        model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}") # اضافه کردن پیشوند models/
         # --- اصلاح کلیدی: تنظیم صریح response_modalities ---
-        # مستندات اخیر برای Live API از response_modalities در config اصلی استفاده می‌کرد.
-        # اما برای generate_content، معمولاً در generation_config است.
-        # همچنین، پیام خطا به "combination of response modalities" اشاره دارد.
-        # SDK پایتون ممکن است به response_mime_type یا چیز مشابهی نیاز داشته باشد.
-        # بر اساس پیام خطا، مدل فقط AUDIO را به عنوان response modality می‌پذیرد.
-        # نحوه دقیق تنظیم این در SDK پایتون برای TTS API باید از مستندات TTS API بررسی شود.
-        # یک تلاش ممکن:
-        # response = model.generate_content(text_to_speak, request_options={"response_mime_type": "audio/wav"})
-        # یا اگر generation_config پارامتر خاصی برای این دارد.
-        # با توجه به پیام خطا، به نظر می‌رسد API انتظار دارد که بداند خروجی فقط AUDIO است.
-        # ممکن است نیازی به generation_config نباشد اگر مدل ذاتاً فقط صدا تولید می‌کند.
-        # اما اگر API عمومی generate_content استفاده می‌شود، باید مشخص کنیم.
-        # === شروع بخش مهم برای اصلاح ===
-        # تلاش برای استفاده از ساختاری که در مستندات Live API برای response_modalities دیدیم،
-        # اما اعمال آن به generate_content ممکن است نیاز به تطبیق داشته باشد.
-        # کتابخانه google-generativeai برای TTS ممکن است روش خاص خود را داشته باشد.
-        #
-        # یک فرض این است که اگر مدل فقط صدا تولید می‌کند، نیازی به تنظیم خاصی نیست
-        # و مشکل از جای دیگری است. اما پیام خطا صریحاً به response_modalities اشاره دارد.
-        #
-        # بیایید سعی کنیم generation_config را با response_mime_type تنظیم کنیم،
-        # چون این روشی رایج برای درخواست فرمت خاص خروجی در API های گوگل است.
-        # مقدار دقیق mime_type (audio/wav, audio/mpeg, audio/opus) باید از مستندات TTS API بیاید.
-        # فرض می‌کنیم WAV:
-        # --- تلاش 1: استفاده از generation_config با response_mime_type ---
-        # این یک حدس است و باید مستندات API را برای TTS بررسی کنید.
-        # response = model.generate_content(
-        # text_to_speak,
-        # generation_config=genai.types.GenerationConfig(
-        # response_mime_type="audio/wav" # یا "audio/mpeg" یا هر فرمتی که مدل پشتیبانی می‌کند
-        # )
-        # )
-        # اگر این کار نکرد، شاید مدل TTS یک متد خاص به جز generate_content دارد، مثلاً model.synthesize_speech()
-        # --- تلاش 2: ساده‌ترین حالت، با فرض اینکه مدل خودش می‌داند باید صدا تولید کند ---
-        # و مشکل از پیشوند models/ بوده.
-        # در پیام خطا آمده: "models/gemini-2.5-flash-preview-tts accepts..."
-        # پس نام مدل باید با models/ باشد.
-        response = model.generate_content(text_to_speak) # بدون generation_config خاص فعلاً
-        # --- پردازش پاسخ ---
-        # این بخش همچنان حدسی است و به ساختار واقعی پاسخ API بستگی دارد.
         audio_bytes = None
         generated_mime_type = None
         if hasattr(response, 'candidates') and response.candidates and \
-           hasattr(response.candidates[0], 'content') and response.candidates[0].content and \
-           hasattr(response.candidates[0].content, 'parts') and response.candidates[0].content.parts:
             for part in response.candidates[0].content.parts:
                 if hasattr(part, 'inline_data') and part.inline_data and \
-                   hasattr(part.inline_data, 'mime_type') and part.inline_data.mime_type.startswith("audio/"):
                     audio_bytes = part.inline_data.data
                     generated_mime_type = part.inline_data.mime_type
                     print(f"داده صوتی با MIME type: {generated_mime_type} دریافت شد.")
-                    break # اولین بخش صوتی را می‌گیریم
-        if audio_bytes is None and hasattr(response, 'audio_content'): # برخی API ها ممکن است این فیلد را داشته باشند
-             audio_bytes = response.audio_content
-             generated_mime_type = "audio/wav" # فرض می‌کنیم WAV است اگر mime_type مشخص نیست
-             print("داده صوتی از فیلد audio_content دریافت شد.")
-        if audio_bytes is None:
-            print("پاسخ کامل مدل (برای دیباگ):", response)
-            try:
-                # اگر پاسخ خطا بود، متن خطا را نشان بده
                 error_text = response.prompt_feedback if hasattr(response, 'prompt_feedback') else str(response)
                 raise gr.Error(f"پاسخ صوتی از مدل دریافت نشد. پاسخ مدل: {error_text}")
-            except Exception as e_resp:
-                 raise gr.Error(f"پاسخ صوتی از مدل دریافت نشد یا فرمت ناشناخته است. خطای داخلی: {e_resp}")
-        # --- ذخیره و برگرداندن فایل صوتی ---
-        # نرخ نمونه‌برداری پیش‌فرض برای اکثر مدل‌های TTS گوگل 24000 هرتز است.
-        # این را از مستندات دقیق مدل خود چک کنید.
-        sample_rate = 24000
-        output_filename = "output.wav" # همیشه با پسوند wav ذخیره می‌کنیم
-        # اگر API بایت‌های خام PCM برمی‌گرداند، باید آنها را به WAV تبدیل کنیم.
-        # فرض می‌کنیم audio_bytes بایت‌های یک فایل WAV کامل است،
-        # یا بایت‌های خام PCM که نیاز به تبدیل به WAV با هدر مناسب دارند.
-        # برای سادگی فعلاً مستقیم می‌نویسیم، اگر فرمت فایل صوتی کامل باشد.
         if "pcm" in (generated_mime_type or "").lower():
-            # اگر PCM خام است، باید هدر WAV را اضافه کنیم
-            print("داده PCM خام دریافت شد، در حال تبدیل به WAV...")
-            # فرض می‌کنیم 16-bit mono PCM
-            audio_np = np.frombuffer(audio_bytes, dtype=np.int16)
             wav_io = io.BytesIO()
             write_wav(wav_io, sample_rate, audio_np)
             wav_io.seek(0)
             with open(output_filename, "wb") as f:
                 f.write(wav_io.read())
-        else:
-            # اگر فرمت دیگری است (مثلاً خود WAV یا MP3)، مستقیم می‌نویسیم
-            print(f"داده صوتی با فرمت {generated_mime_type} دریافت شد، مستقیم ذخیره می‌شود.")
-            with open(output_filename, "wb") as f:
                 f.write(audio_bytes)
         print(f"فایل صوتی در {output_filename} ذخیره شد.")
         return output_filename
-    except genai.types.BlockedPromptException as bpe:
-        print(f"درخواست توسط مدل بلاک شد: {bpe}")
-        raise gr.Error(f"محتوای شما توسط مدل پذیرفته نشد. لطفاً متن دیگری را امتحان کنید. دلیل: {bpe}")
-    except Exception as e:
-        print(f"خطا در تولید صدا: {e}")
-        import traceback
-        traceback.print_exc()
-        # نمایش پیام خطای اصلی از API اگر موجود است
-        error_message_from_api = ""
-        if hasattr(e, 'message') and isinstance(e.message, str) and "HttpError" in e.message: # نمونه
-            try:
-                # تلاش برای استخراج جزئیات بیشتر از خطای API
-                import json
-                details_start = e.message.find('{')
-                if details_start != -1:
-                    error_details_json = e.message[details_start:]
-                    error_obj = json.loads(error_details_json.strip().replace('\n', '').replace('\\n', ''))
-                    if 'error' in error_obj and 'message' in error_obj['error']:
-                        error_message_from_api = error_obj['error']['message']
-            except:
-                pass # اگر نشد، مهم نیست
-        final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
-        if error_message_from_api:
-            final_error_message += f" | پیام API: {error_message_from_api}"
-        raise gr.Error(final_error_message)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    # ... (بقیه کد رابط کاربری Gradio بدون تغییر) ...
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
-    gr.Examples(
-        examples=[
-            ["سلام، حال شما چطور است؟"],
-            ["به دنیای هوش مصنوعی خوش آمدید."],
-            ["این یک تست برای تبدیل متن به صدا با استفاده از جیمینای است."]
-        ],
-        inputs=[text_input]
-    )
     submit_button.click(
         fn=generate_audio,
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
     )
     gr.Markdown("---")
-    # نمایش نام مدل با پیشوند models/ بر اساس پیام خطا
     gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`")
 if __name__ == "__main__":

 # app.py
 import gradio as gr
 import google.generativeai as genai
+from google.generativeai import types # برای استفاده از types.GenerationConfig
 import os
 import io
 from scipy.io.wavfile import write as write_wav
+import numpy as np
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
     raise ValueError("GOOGLE_API_KEY not found in environment variables.")
 genai.configure(api_key=GOOGLE_API_KEY)
+TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
+# نام‌های گوینده‌ها باید از مستندات دقیق مدل TTS گرفته شود.
+# این‌ها فقط مثال هستند و ممکن است برای این مدل معتبر نباشند.
+# فعلاً یک لیست ساده با "پیش‌فرض" می‌گذاریم.
+AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
+# اگر نام‌های واقعی را پیدا کردید، اینجا اضافه کنید:
+# AVAILABLE_VOICES.extend(["voice-name-1", "voice-name-2"])
+def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل انتخاب کند)"):
     if not text_to_speak:
         raise gr.Error("لطفاً متنی را برای تبدیل به صدا وارد کنید.")
+    print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...' با گوینده: {selected_voice_name}")
     try:
+        model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
         # --- اصلاح کلیدی: تنظیم صریح response_modalities ---
+        generation_config_params = {
+            "response_modalities": ["AUDIO"] # درخواست صریح خروجی صوتی
+        }
+        # اگر کاربر یک گوینده خاص انتخاب کرده (و "پیش‌فرض" نیست)
+        # و ما نام پارامتر صحیح را برای voice در generation_config بدانیم:
+        if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
+            # نام پارامتر برای voice ممکن است "voice_name", "voice", "speaker" یا چیز دیگری باشد.
+            # این را باید از مستندات TTS API برای این مدل پیدا کنید.
+            # فرض می‌کنیم "voice" است:
+            # generation_config_params["voice"] = selected_voice_name
+            # یا اگر ساختار speech_config مانند Live API است:
+            # generation_config_params["speech_config"] = types.SpeechConfig(
+            #     voice_config=types.VoiceConfig(
+            #         prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name=selected_voice_name)
+            #     )
+            # )
+            print(f"توجه: انتخاب گوینده هنوز پیاده‌سازی نشده است. از گوینده پیش‌فرض مدل استفاده می‌شود.")
+        generation_config = genai.types.GenerationConfig(**generation_config_params)
+        print(f"ارسال درخواست به Gemini با generation_config: {generation_config_params}")
+        response = model.generate_content(
+            text_to_speak,
+            generation_config=generation_config
+        )
+        # --- پایان اصلاح ---
         audio_bytes = None
         generated_mime_type = None
+        sample_rate = 24000 # پیش‌فرض برای TTS گوگل، از مستندات چک شود
         if hasattr(response, 'candidates') and response.candidates and \
+           response.candidates[0].content and response.candidates[0].content.parts:
             for part in response.candidates[0].content.parts:
                 if hasattr(part, 'inline_data') and part.inline_data and \
+                   part.inline_data.mime_type.startswith("audio/"):
                     audio_bytes = part.inline_data.data
                     generated_mime_type = part.inline_data.mime_type
+                    # برخی API ها ممکن است نرخ نمونه‌برداری را در mime_type بفرستند
+                    if ";rate=" in generated_mime_type:
+                        try:
+                            sample_rate = int(generated_mime_type.split(";rate=")[1])
+                            print(f"نرخ نمونه‌برداری از MIME type استخراج شد: {sample_rate} Hz")
+                        except:
+                            print(f"خطا در استخراج نرخ نمونه‌برداری از MIME type: {generated_mime_type}. از پیش‌فرض {sample_rate} Hz استفاده می‌شود.")
                     print(f"داده صوتی با MIME type: {generated_mime_type} دریافت شد.")
+                    break
+        if audio_bytes is None: # fallback اگر ساختار بالا نبود
+            if hasattr(response, 'audio_content'):
+                audio_bytes = response.audio_content
+                generated_mime_type = "audio/wav" # فرض
+                print("داده صوتی از فیلد audio_content دریافت شد.")
+            else:
+                print("پاسخ کامل مدل (برای دیباگ):", response)
                 error_text = response.prompt_feedback if hasattr(response, 'prompt_feedback') else str(response)
                 raise gr.Error(f"پاسخ صوتی از مدل دریافت نشد. پاسخ مدل: {error_text}")
+        output_filename = "output.wav"
+        # فرض می‌کنیم API بایت‌های خام PCM برمی‌گرداند اگر mime_type شامل pcm باشد
+        # یا یک فایل WAV کامل.
         if "pcm" in (generated_mime_type or "").lower():
+            print(f"داده PCM خام ({len(audio_bytes)} بایت) با نرخ نمونه‌برداری {sample_rate} Hz دریافت شد، در حال تبدیل به WAV...")
+            audio_np = np.frombuffer(audio_bytes, dtype=np.int16) # فرض بر 16-bit PCM
             wav_io = io.BytesIO()
             write_wav(wav_io, sample_rate, audio_np)
             wav_io.seek(0)
             with open(output_filename, "wb") as f:
                 f.write(wav_io.read())
+        elif audio_bytes: # اگر PCM نیست، فرض می‌کنیم خود فایل صوتی است (مثلاً WAV از API)
+             print(f"داده صوتی با فرمت {generated_mime_type} ({len(audio_bytes)} بایت) دریافت شد، مستقیم ذخیره می‌شود.")
+             with open(output_filename, "wb") as f:
                 f.write(audio_bytes)
+        else:
+            raise gr.Error("هیچ داده صوتی برای ذخیره وجود ندارد.")
         print(f"فایل صوتی در {output_filename} ذخیره شد.")
         return output_filename
+    except genai.types.BlockedPromptException as bpe: # ... بدون تغییر ...
+    except Exception as e: # ... بدون تغییر ...
+# ایجاد رابط کاربری Gradio
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
+            # voice_dropdown = gr.Dropdown(choices=AVAILABLE_VOICES, value=AVAILABLE_VOICES[0], label="انتخاب گوینده") # فعال کردن Dropdown
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
+    gr.Examples( /* ... بدون تغییر ... */ )
     submit_button.click(
         fn=generate_audio,
+        # inputs=[text_input, voice_dropdown], # اگر voice_dropdown فعال است
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
     )
     gr.Markdown("---")
     gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`")
+    gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":