Ttspro

Running

App Files Files Community

Hamed744 commited on May 27, 2025

Commit

88afdfa

verified ·

1 Parent(s): dec8bb3

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -30

app.py CHANGED Viewed

@@ -7,36 +7,32 @@ import io
 from scipy.io.wavfile import write as write_wav
 import numpy as np
 import traceback
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
     raise ValueError("GOOGLE_API_KEY not found in environment variables.")
 genai.configure(api_key=GOOGLE_API_KEY)
-TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
 def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل انتخاب کند)"):
     if not text_to_speak:
         raise gr.Error("لطفاً متنی را برای تبدیل به صدا وارد کنید.")
-    print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...' با گوینده: {selected_voice_name}")
     try:
-        # اطمینان از اینکه نام مدل با پیشوند models/ ارسال می‌شود، همانطور که پیام خطای قبلی نشان داد
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
-        # --- حذف response_modalities از generation_config ---
-        # مدل TTS باید به طور خودکار بداند که خروجی صوتی تولید کند.
-        # اگر نیاز به تنظیمات خاصی برای voice یا کیفیت باشد، باید در اینجا اضافه شود.
-        generation_config_params = {}
-        # برای انتخاب گوینده، این بخش نیاز به اطلاعات از مستندات دارد
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
-            # مثال: generation_config_params["voice"] = selected_voice_name
-            # یا ساختار دقیق‌تری اگر مستندات مشخص کند.
             print(f"توجه: انتخاب گوینده ('{selected_voice_name}') هنوز به طور کامل پیاده‌سازی نشده است.")
-        # فقط اگر generation_config_params خالی نیست، آن را بسازید
         generation_config_to_pass = None
         if generation_config_params:
             generation_config_to_pass = genai.types.GenerationConfig(**generation_config_params)
@@ -44,14 +40,11 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
         else:
             print("ارسال درخواست به Gemini بدون generation_config خاص (با تنظیمات پیش‌فرض مدل).")
         response = model.generate_content(
             text_to_speak,
-            generation_config=generation_config_to_pass # می‌تواند None باشد
         )
-        # --- پایان تغییرات ---
-        # ... (بقیه کد پردازش پاسخ و ذخیره فایل صوتی بدون تغییر نسبت به نسخه قبلی که تورفتگی‌اش درست بود) ...
         audio_bytes = None
         generated_mime_type = None
         sample_rate = 24000
@@ -108,35 +101,30 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
         print(f"خطای کلی در تولید صدا: {e}")
         traceback.print_exc()
         error_message_from_api = ""
         if hasattr(e, 'args') and e.args:
-            if isinstance(e.args[0], str) and "HttpError" in e.args[0]: # خطاهای HTTP از API
-                error_message_from_api = str(e.args[0]) # کل پیام خطا را بگیرید
-                # تلاش برای استخراج جزئیات بیشتر اگر JSON است
                 try:
                     details_start = error_message_from_api.find('{')
                     if details_start != -1:
                         json_str_candidate = error_message_from_api[details_start:]
-                        # تمیز کردن رشته JSON از کاراکترهای کنترلی ناخواسته
-                        import json
                         cleaned_json_str = ''.join(c for c in json_str_candidate if ord(c) >= 32 or c in ('\t','\r','\n')).strip()
                         error_obj = json.loads(cleaned_json_str)
                         if 'error' in error_obj and 'message' in error_obj['error']:
                             error_message_from_api = error_obj['error']['message']
-                        elif 'message' in error_obj : # برخی API ها مستقیم پیام خطا دارن��
                              error_message_from_api = error_obj['message']
                 except Exception as json_e:
                     print(f"خطا در parse کردن جزئیات JSON از پیام خطای API: {json_e}")
             else:
                  error_message_from_api = str(e.args[0])
-        elif hasattr(e, 'message') and isinstance(e.message, str): # fallback برای خطاهای دیگر
             error_message_from_api = e.message
         final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
         if error_message_from_api and error_message_from_api not in final_error_message :
             final_error_message += f" | پیام دقیق‌تر API: {error_message_from_api}"
         raise gr.Error(final_error_message)
@@ -144,14 +132,12 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
     gr.Examples(
         examples=[
             ["سلام، حال شما چطور است؟"],
@@ -160,16 +146,14 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         ],
         inputs=[text_input]
     )
     submit_button.click(
         fn=generate_audio,
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
     )
     gr.Markdown("---")
-    gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`")
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":

 from scipy.io.wavfile import write as write_wav
 import numpy as np
 import traceback
+import json # برای parse کردن خطای JSON احتمالی
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
     raise ValueError("GOOGLE_API_KEY not found in environment variables.")
 genai.configure(api_key=GOOGLE_API_KEY)
+# --- تغییر نام مدل به نسخه Pro TTS ---
+TTS_MODEL_NAME = "gemini-2.5-pro-preview-tts"
+# --- پایان تغییر ---
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
 def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل انتخاب کند)"):
     if not text_to_speak:
         raise gr.Error("لطفاً متنی را برای تبدیل به صدا وارد کنید.")
+    print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...' با گوینده: {selected_voice_name} و مدل: models/{TTS_MODEL_NAME}")
     try:
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
+        generation_config_params = {} # فعلاً بدون پارامتر خاص برای generation_config
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
             print(f"توجه: انتخاب گوینده ('{selected_voice_name}') هنوز به طور کامل پیاده‌سازی نشده است.")
         generation_config_to_pass = None
         if generation_config_params:
             generation_config_to_pass = genai.types.GenerationConfig(**generation_config_params)
         else:
             print("ارسال درخواست به Gemini بدون generation_config خاص (با تنظیمات پیش‌فرض مدل).")
         response = model.generate_content(
             text_to_speak,
+            generation_config=generation_config_to_pass
         )
         audio_bytes = None
         generated_mime_type = None
         sample_rate = 24000
         print(f"خطای کلی در تولید صدا: {e}")
         traceback.print_exc()
         error_message_from_api = ""
+        # ... (بقیه کد مدیریت خطا که قبلاً داشتیم) ...
         if hasattr(e, 'args') and e.args:
+            if isinstance(e.args[0], str) and "HttpError" in e.args[0]:
+                error_message_from_api = str(e.args[0])
                 try:
                     details_start = error_message_from_api.find('{')
                     if details_start != -1:
                         json_str_candidate = error_message_from_api[details_start:]
                         cleaned_json_str = ''.join(c for c in json_str_candidate if ord(c) >= 32 or c in ('\t','\r','\n')).strip()
                         error_obj = json.loads(cleaned_json_str)
                         if 'error' in error_obj and 'message' in error_obj['error']:
                             error_message_from_api = error_obj['error']['message']
+                        elif 'message' in error_obj :
                              error_message_from_api = error_obj['message']
                 except Exception as json_e:
                     print(f"خطا در parse کردن جزئیات JSON از پیام خطای API: {json_e}")
             else:
                  error_message_from_api = str(e.args[0])
+        elif hasattr(e, 'message') and isinstance(e.message, str):
             error_message_from_api = e.message
         final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
         if error_message_from_api and error_message_from_api not in final_error_message :
             final_error_message += f" | پیام دقیق‌تر API: {error_message_from_api}"
         raise gr.Error(final_error_message)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
     gr.Examples(
         examples=[
             ["سلام، حال شما چطور است؟"],
         ],
         inputs=[text_input]
     )
     submit_button.click(
         fn=generate_audio,
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
     )
     gr.Markdown("---")
+    gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`") # نام مدل به روز شده را نمایش می‌دهد
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":