Ttspro2

Running

App Files Files Community

Hamed744 commited on Jul 5, 2025

Commit

b30822c

verified ·

1 Parent(s): fb10263

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -52

app.py CHANGED Viewed

@@ -9,18 +9,19 @@ import re
 import struct
 import time
 import zipfile
-import google.generativeai as genai # اصلاح شد: این خط اکنون صحیح است
-from google.generativeai import types # این خط از قبل هم صحیح بود
 import threading
 import logging
-import io # اضافه شد: برای عملیات بایت در حافظه
 try:
     from pydub import AudioSegment
     PYDUB_AVAILABLE = True
 except ImportError:
     PYDUB_AVAILABLE = False
-    logging.warning("⚠️ pydub نصب نشده است. قابلیت ادغام فایل‌های صوتی غیرفعال خواهد بود.")
 # --- START: پیکربندی لاگینگ ---
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s', datefmt='%Y-%m-%d %H:%M:%S')
@@ -126,32 +127,30 @@ def smart_text_split(text, max_size=3800):
     final_chunks = [c for c in chunks if c]
     return final_chunks
-def merge_audio_bytes(audio_data_list: list[bytes], original_mime_type: str) -> io.BytesIO | None:
     """
-    لیستی از بایت‌های صوتی را ادغام کرده و یک شیء io.BytesIO حاوی فایل WAV نهایی برمی‌گرداند.
     """
     if not PYDUB_AVAILABLE:
-        logging.warning("⚠️ pydub برای ادغام در دسترس نیست. ادغام انجام نخواهد شد.")
-        if audio_data_list:
-            return io.BytesIO(audio_data_list[0])
-        return None
     try:
-        combined = AudioSegment.empty()
         for i, audio_bytes in enumerate(audio_data_list):
             audio_segment = AudioSegment.from_file(io.BytesIO(audio_bytes), format="wav")
-            combined += audio_segment
             if i < len(audio_data_list) - 1:
-                combined += AudioSegment.silent(duration=150) # 150 میلی‌ثانیه سکوت
-        output_buffer = io.BytesIO()
-        combined.export(output_buffer, format="wav")
-        output_buffer.seek(0)
-        return output_buffer
     except Exception as e:
-        logging.error(f"❌ خطا در ادغام بایت‌های صوتی: {e}")
-        if audio_data_list:
-            return io.BytesIO(audio_data_list[0])
         return None
 # --- START: منطق تولید صدا با قابلیت تلاش مجدد با کلیدهای چرخشی ---
@@ -186,7 +185,12 @@ def generate_audio_chunk_with_retry(chunk_text, prompt_text, voice, temp):
             if response.candidates and response.candidates[0].content and response.candidates[0].content.parts and response.candidates[0].content.parts[0].inline_data:
                 logging.info(f"✅ قطعه با موفقیت توسط کلید شماره {key_idx_display} تولید شد.")
-                return response.candidates[0].content.parts[0].inline_data
             else:
                 logging.warning(f"⚠️ پاسخ API برای قطعه با کلید شماره {key_idx_display} بدون داده صوتی بود. تلاش با کلید بعدی...")
@@ -210,22 +214,16 @@ def core_generate_audio(text_input, prompt_input, selected_voice, temperature_va
         logging.error("❌ متن قابل پردازش به قطعات کوچکتر نیست.")
         return None
-    generated_audio_data_list = []
-    last_mime_type = None
     for i, chunk in enumerate(text_chunks):
         logging.info(f"🔊 پردازش قطعه {i+1}/{len(text_chunks)}...")
-        inline_data = generate_audio_chunk_with_retry(chunk, prompt_input, selected_voice, temperature_val)
-        if inline_data:
-            data_buffer = inline_data.data
-            last_mime_type = inline_data.mime_type
-            if "audio/L" in inline_data.mime_type:
-                data_buffer = convert_to_wav(data_buffer, inline_data.mime_type)
-            generated_audio_data_list.append(data_buffer)
         else:
             logging.error(f"🛑 فرآیند متوقف شد زیرا تولید قطعه {i+1} با تمام کلیدهای موجود ناموفق بود.")
             break
@@ -233,27 +231,46 @@ def core_generate_audio(text_input, prompt_input, selected_voice, temperature_va
         if i < len(text_chunks) - 1 and len(text_chunks) > 1:
             time.sleep(sleep_time)
-    if not generated_audio_data_list:
         logging.error(f"❌ هیچ داده صوتی تولید نشد.")
         return None
-    final_audio_bytes_io = None
-    if len(generated_audio_data_list) > 1:
-        logging.info("♻️ ادغام قطعات صوتی...")
-        final_audio_bytes_io = merge_audio_bytes(generated_audio_data_list, last_mime_type)
-        if final_audio_bytes_io:
-            logging.info("✅ ادغام با موفقیت انجام شد.")
         else:
-            logging.warning("⚠️ ادغام ناموفق بود یا pydub در دسترس نیست. اولین قطعه بازگردانده می‌شود.")
-            final_audio_bytes_io = io.BytesIO(generated_audio_data_list[0]) if generated_audio_data_list else None
-    elif len(generated_audio_data_list) == 1:
-        logging.info("✅ تنها یک قطعه صوتی تولید شد. نیازی به ادغام نیست.")
-        final_audio_bytes_io = io.BytesIO(generated_audio_data_list[0])
-    if final_audio_bytes_io:
         logging.info("✅ عملیات تولید صدا با موفقیت کامل شد.")
-        return final_audio_bytes_io
     else:
         logging.error("❓ وضعیت نامشخص برای خروجی نهایی صدا.")
         return None
@@ -273,8 +290,9 @@ def gradio_tts_interface(use_file_input, uploaded_file, text_to_speak, speech_pr
         actual_text = text_to_speak
         if not actual_text or not actual_text.strip(): logging.warning("❌ متن ورودی برای تبدیل خالی است."); return None
-    output_audio_data = core_generate_audio(actual_text, speech_prompt, speaker_voice, temperature)
-    return output_audio_data
 # --- تابع جدید برای ریست خودکار هر 24 ساعت ---
 def auto_restart_service():
@@ -382,8 +400,8 @@ with gr.Blocks(theme=gr.themes.Base(font=[gr.themes.GoogleFont("Vazirmatn")]), c
         generate_button = gr.Button("🚀 تولید و پخش صدا", elem_classes=["generate-button-final"], elem_id="generate_button_alpha_v3")
-        # مهم: type="bytes" را برای خروجی صوتی تنظیم کنید (نیاز به Gradio 4.0.0+ دارد)
-        output_audio = gr.Audio(label=" ", type="bytes", elem_id="output_audio_player_alpha_v3")
         generate_button.click(
             fn=gradio_tts_interface,

 import struct
 import time
 import zipfile
+import google.generativeai as genai
+from google.generativeai import types
 import threading
 import logging
+import io
+import numpy as np # جدید: این خط را اضافه کنید
 try:
     from pydub import AudioSegment
     PYDUB_AVAILABLE = True
 except ImportError:
     PYDUB_AVAILABLE = False
+    logging.warning("⚠️ pydub نصب نشده است. قابلیت ادغام فایل‌های صوتی و تبدیل به NumPy غیرفعال خواهد بود.")
 # --- START: پیکربندی لاگینگ ---
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s', datefmt='%Y-%m-%d %H:%M:%S')
     final_chunks = [c for c in chunks if c]
     return final_chunks
+def merge_audio_bytes_to_numpy(audio_data_list: list[bytes]) -> tuple[int, np.ndarray] | None:
     """
+    لیستی از بایت‌های صوتی WAV را ادغام کرده و یک تاپل (sample_rate, numpy_array) برمی‌گرداند.
     """
     if not PYDUB_AVAILABLE:
+        logging.warning("⚠️ pydub برای ادغام و تبدیل به NumPy در دسترس نیست.")
+        return None # در این حالت نمی‌توانیم خروجی NumPy بدهیم
     try:
+        combined_audio_segment = AudioSegment.empty()
         for i, audio_bytes in enumerate(audio_data_list):
             audio_segment = AudioSegment.from_file(io.BytesIO(audio_bytes), format="wav")
+            combined_audio_segment += audio_segment
             if i < len(audio_data_list) - 1:
+                combined_audio_segment += AudioSegment.silent(duration=150) # 150 میلی‌ثانیه سکوت
+        # استخراج نرخ نمونه و داده‌های صوتی به عنوان آرایه NumPy
+        sample_rate = combined_audio_segment.frame_rate
+        # pydub به صورت پیش‌فرض داده‌ها را به int16 تبدیل می‌کند، مناسب برای NumPy
+        audio_array = np.array(combined_audio_segment.get_array_of_samples())
+        return (sample_rate, audio_array)
     except Exception as e:
+        logging.error(f"❌ خطا در ادغام بایت‌های صوتی و تبدیل به NumPy: {e}")
         return None
 # --- START: منطق تولید صدا با قابلیت تلاش مجدد با کلیدهای چرخشی ---
             if response.candidates and response.candidates[0].content and response.candidates[0].content.parts and response.candidates[0].content.parts[0].inline_data:
                 logging.info(f"✅ قطعه با موفقیت توسط کلید شماره {key_idx_display} تولید شد.")
+                # همیشه داده را به صورت بایت WAV برمی‌گرداند.
+                data_buffer = response.candidates[0].content.parts[0].inline_data.data
+                mime_type = response.candidates[0].content.parts[0].inline_data.mime_type
+                if "audio/L" in mime_type:
+                    data_buffer = convert_to_wav(data_buffer, mime_type)
+                return data_buffer
             else:
                 logging.warning(f"⚠️ پاسخ API برای قطعه با کلید شماره {key_idx_display} بدون داده صوتی بود. تلاش با کلید بعدی...")
         logging.error("❌ متن قابل پردازش به قطعات کوچکتر نیست.")
         return None
+    generated_wav_bytes_list = [] # لیست حاوی داده‌های صوتی هر قطعه (بایت WAV)
     for i, chunk in enumerate(text_chunks):
         logging.info(f"🔊 پردازش قطعه {i+1}/{len(text_chunks)}...")
+        # generate_audio_chunk_with_retry اکنون مستقیماً بایت‌های WAV را برمی‌گرداند
+        wav_data_for_chunk = generate_audio_chunk_with_retry(chunk, prompt_input, selected_voice, temperature_val)
+        if wav_data_for_chunk:
+            generated_wav_bytes_list.append(wav_data_for_for_chunk)
         else:
             logging.error(f"🛑 فرآیند متوقف شد زیرا تولید قطعه {i+1} با تمام کلیدهای موجود ناموفق بود.")
             break
         if i < len(text_chunks) - 1 and len(text_chunks) > 1:
             time.sleep(sleep_time)
+    if not generated_wav_bytes_list:
         logging.error(f"❌ هیچ داده صوتی تولید نشد.")
         return None
+    final_audio_output = None
+    if len(generated_wav_bytes_list) > 1:
+        logging.info("♻️ ادغام قطعات صوتی و تبدیل به NumPy...")
+        final_audio_output = merge_audio_bytes_to_numpy(generated_wav_bytes_list)
+        if final_audio_output:
+            logging.info("✅ ادغام و تبدیل به NumPy با موفقیت انجام شد.")
+        else:
+            logging.warning("⚠️ ادغام ناموفق بود یا pydub در دسترس نیست. تلاش برای بازگرداندن اولین قطعه به عنوان NumPy...")
+            if generated_wav_bytes_list and PYDUB_AVAILABLE:
+                try:
+                    # اگر ادغام به مشکل خورد، سعی می‌کنیم حداقل اولین قطعه را به NumPy تبدیل کنیم
+                    single_audio_segment = AudioSegment.from_file(io.BytesIO(generated_wav_bytes_list[0]), format="wav")
+                    final_audio_output = (single_audio_segment.frame_rate, np.array(single_audio_segment.get_array_of_samples()))
+                except Exception as e:
+                    logging.error(f"❌ خطا در تبدیل اولین قطعه به NumPy: {e}")
+                    return None
+            else:
+                return None # هیچ راهی برای بازگرداندن NumPy بدون pydub/داده وجود ندارد
+    elif len(generated_wav_bytes_list) == 1:
+        logging.info("✅ تنها یک قطعه صوتی تولید شد. تبدیل مستقیم به NumPy.")
+        if PYDUB_AVAILABLE:
+            try:
+                single_audio_segment = AudioSegment.from_file(io.BytesIO(generated_wav_bytes_list[0]), format="wav")
+                final_audio_output = (single_audio_segment.frame_rate, np.array(single_audio_segment.get_array_of_samples()))
+            except Exception as e:
+                logging.error(f"❌ خطا در تبدیل قطعه تکی به NumPy: {e}")
+                return None
         else:
+            logging.error("❌ pydub برای تبدیل قطعه تکی به NumPy در دسترس نیست.")
+            return None # نمی‌توانیم خروجی numpy بدهیم
+    if final_audio_output:
         logging.info("✅ عملیات تولید صدا با موفقیت کامل شد.")
+        return final_audio_output
     else:
         logging.error("❓ وضعیت نامشخص برای خروجی نهایی صدا.")
         return None
         actual_text = text_to_speak
         if not actual_text or not actual_text.strip(): logging.warning("❌ متن ورودی برای تبدیل خالی است."); return None
+    # core_generate_audio اکنون یک تاپل (sample_rate, numpy_array) برمی‌گرداند
+    output_audio_data_numpy = core_generate_audio(actual_text, speech_prompt, speaker_voice, temperature)
+    return output_audio_data_numpy
 # --- تابع جدید برای ریست خودکار هر 24 ساعت ---
 def auto_restart_service():
         generate_button = gr.Button("🚀 تولید و پخش صدا", elem_classes=["generate-button-final"], elem_id="generate_button_alpha_v3")
+        # مهم: type="numpy" را برای خروجی صوتی تنظیم کنید
+        output_audio = gr.Audio(label=" ", type="numpy", elem_id="output_audio_player_alpha_v3")
         generate_button.click(
             fn=gradio_tts_interface,