Spaces:

channelcorp
/

Ko-TTS-Arena

Sleeping

App Files Files Community

Ko-TTS-Arena Contributors commited on 10 days ago

Commit

407795c

1 Parent(s): 9c1f76a

feat: Add Gemini TTS (Aoede voice) - Google Cloud Text-to-Speech

Browse files

Files changed (3) hide show

models.py +10 -0
requirements.txt +2 -1
tts.py +63 -0

models.py CHANGED Viewed

@@ -566,6 +566,7 @@ def insert_initial_models():
     has_clova = bool(os.getenv("CLOVA_CLIENT_ID") and os.getenv("CLOVA_API_KEY"))
     has_humelo = bool(os.getenv("HUMELO_API_KEY"))
     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
@@ -648,6 +649,15 @@ def insert_initial_models():
             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
     ]
     for model in tts_models:

     has_clova = bool(os.getenv("CLOVA_CLIENT_ID") and os.getenv("CLOVA_API_KEY"))
     has_humelo = bool(os.getenv("HUMELO_API_KEY"))
     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
+    has_gemini_tts = bool(os.getenv("GEMINI_TTS_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
+        # Gemini TTS (Google Cloud - 다국어 지원) - API 키 있을 때만 활성화
+        Model(
+            id="gemini-tts-aoede",
+            name="Gemini TTS (Aoede)",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_gemini_tts,
+            model_url="https://cloud.google.com/text-to-speech/docs/gemini-tts",
+        ),
     ]
     for model in tts_models:

requirements.txt CHANGED Viewed

@@ -14,4 +14,5 @@ huggingface-hub
 scipy
 numpy
 pydub
-typecast-python

 scipy
 numpy
 pydub
+typecast-python
+google-cloud-texttospeech

tts.py CHANGED Viewed

@@ -55,6 +55,9 @@ HUMELO_API_URL = "https://agitvxptajouhvoatxio.supabase.co/functions/v1/dive-syn
 # Typecast TTS
 TYPECAST_API_KEY = os.getenv("TYPECAST_API_KEY")
 def resample_wav_to_16khz(input_path: str) -> str:
     """
     Resample a WAV file to 16kHz for fair comparison.
@@ -213,6 +216,12 @@ model_mapping = {
         "voice_id": "tc_5c789c337ad86500073a02cd",
         "model": "ssfm-v21",
     },
 }
@@ -438,6 +447,52 @@ def predict_typecast_tts(text: str, voice_id: str = "tc_612ed01c7eb720fddd3ddedf
         raise ValueError(f"Typecast TTS API 오류: {str(e)}")
 def predict_google_tts(text: str, voice: str = "ko-KR-Wavenet-A") -> str:
     """Google Cloud TTS API 호출"""
     api_key = os.getenv("GOOGLE_API_KEY")
@@ -538,6 +593,14 @@ def predict_tts(text: str, model: str) -> str:
         )
         # Typecast returns WAV
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")

 # Typecast TTS
 TYPECAST_API_KEY = os.getenv("TYPECAST_API_KEY")
+# Gemini TTS (Google Cloud)
+GEMINI_TTS_API_KEY = os.getenv("GEMINI_TTS_API_KEY")
 def resample_wav_to_16khz(input_path: str) -> str:
     """
     Resample a WAV file to 16kHz for fair comparison.
         "voice_id": "tc_5c789c337ad86500073a02cd",
         "model": "ssfm-v21",
     },
+    # Gemini TTS (Google Cloud - 다국어 지원)
+    "gemini-tts-aoede": {
+        "provider": "gemini",
+        "voice": "Aoede",
+        "model": "gemini-2.5-flash-tts",
+    },
 }
         raise ValueError(f"Typecast TTS API 오류: {str(e)}")
+def predict_gemini_tts(text: str, voice: str = "Aoede", model: str = "gemini-2.5-flash-tts") -> str:
+    """Gemini TTS API 호출 (Google Cloud Text-to-Speech)"""
+    api_key = GEMINI_TTS_API_KEY
+    if not api_key:
+        raise ValueError("GEMINI_TTS_API_KEY 환경 변수가 설정되지 않았습니다.")
+    try:
+        import os
+        os.environ['GOOGLE_API_KEY'] = api_key
+        from google.api_core.client_options import ClientOptions
+        from google.cloud import texttospeech_v1beta1 as texttospeech
+        client = texttospeech.TextToSpeechClient(
+            client_options=ClientOptions(api_endpoint='texttospeech.googleapis.com')
+        )
+        voice_params = texttospeech.VoiceSelectionParams(
+            name=voice,
+            language_code='ko-kr',
+            model_name=model
+        )
+        # Synthesize speech with natural prompt
+        response = client.synthesize_speech(
+            input=texttospeech.SynthesisInput(
+                text=text,
+                prompt='친절하고 자연스러운 톤으로 말해주세요'
+            ),
+            voice=voice_params,
+            audio_config=texttospeech.AudioConfig(
+                audio_encoding=texttospeech.AudioEncoding.LINEAR16,
+                sample_rate_hertz=24000
+            ),
+        )
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+            f.write(response.audio_content)
+            return f.name
+    except ImportError:
+        raise ValueError("google-cloud-texttospeech 패키지가 설치되지 않았습니다.")
+    except Exception as e:
+        raise ValueError(f"Gemini TTS API 오류: {str(e)}")
 def predict_google_tts(text: str, voice: str = "ko-KR-Wavenet-A") -> str:
     """Google Cloud TTS API 호출"""
     api_key = os.getenv("GOOGLE_API_KEY")
         )
         # Typecast returns WAV
+    elif provider == "gemini":
+        audio_path = predict_gemini_tts(
+            text,
+            config.get("voice", "Aoede"),
+            config.get("model", "gemini-2.5-flash-tts"),
+        )
+        # Gemini TTS returns WAV at 24kHz
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")