Spaces:

channelcorp
/

Ko-TTS-Arena

Sleeping

App Files Files Community

Ko-TTS-Arena Contributors commited on 10 days ago

Commit

b0bdfc9

1 Parent(s): 407795c

fix: Add ffmpeg to Docker, disable Gemini TTS (requires OAuth2), keep REST API code for future

Browse files

Files changed (4) hide show

Dockerfile +1 -0
models.py +9 -9
requirements.txt +1 -2
tts.py +31 -28

Dockerfile CHANGED Viewed

@@ -6,6 +6,7 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
     wget \
     curl \
     git \
     && rm -rf /var/lib/apt/lists/*
 # Create non-root user

     wget \
     curl \
     git \
+    ffmpeg \
     && rm -rf /var/lib/apt/lists/*
 # Create non-root user

models.py CHANGED Viewed

@@ -649,15 +649,15 @@ def insert_initial_models():
             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
-        # Gemini TTS (Google Cloud - 다국어 지원) - API 키 있을 때만 활성화
-        Model(
-            id="gemini-tts-aoede",
-            name="Gemini TTS (Aoede)",
-            model_type=ModelType.TTS,
-            is_open=False,
-            is_active=has_gemini_tts,
-            model_url="https://cloud.google.com/text-to-speech/docs/gemini-tts",
-        ),
     ]
     for model in tts_models:

             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
+        # Gemini TTS (Google Cloud - 다국어 지원) - OAuth2 인증 필요, 현재 비활성화
+        # Model(
+        #     id="gemini-tts-aoede",
+        #     name="Gemini TTS (Aoede)",
+        #     model_type=ModelType.TTS,
+        #     is_open=False,
+        #     is_active=has_gemini_tts,
+        #     model_url="https://cloud.google.com/text-to-speech/docs/gemini-tts",
+        # ),
     ]
     for model in tts_models:

requirements.txt CHANGED Viewed

@@ -14,5 +14,4 @@ huggingface-hub
 scipy
 numpy
 pydub
-typecast-python
-google-cloud-texttospeech

 scipy
 numpy
 pydub
+typecast-python

tts.py CHANGED Viewed

@@ -448,47 +448,50 @@ def predict_typecast_tts(text: str, voice_id: str = "tc_612ed01c7eb720fddd3ddedf
 def predict_gemini_tts(text: str, voice: str = "Aoede", model: str = "gemini-2.5-flash-tts") -> str:
-    """Gemini TTS API 호출 (Google Cloud Text-to-Speech)"""
     api_key = GEMINI_TTS_API_KEY
     if not api_key:
         raise ValueError("GEMINI_TTS_API_KEY 환경 변수가 설정되지 않았습니다.")
     try:
-        import os
-        os.environ['GOOGLE_API_KEY'] = api_key
-        from google.api_core.client_options import ClientOptions
-        from google.cloud import texttospeech_v1beta1 as texttospeech
-        client = texttospeech.TextToSpeechClient(
-            client_options=ClientOptions(api_endpoint='texttospeech.googleapis.com')
-        )
-        voice_params = texttospeech.VoiceSelectionParams(
-            name=voice,
-            language_code='ko-kr',
-            model_name=model
         )
-        # Synthesize speech with natural prompt
-        response = client.synthesize_speech(
-            input=texttospeech.SynthesisInput(
-                text=text,
-                prompt='친절하고 자연스러운 톤으로 말해주세요'
-            ),
-            voice=voice_params,
-            audio_config=texttospeech.AudioConfig(
-                audio_encoding=texttospeech.AudioEncoding.LINEAR16,
-                sample_rate_hertz=24000
-            ),
-        )
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
-            f.write(response.audio_content)
             return f.name
-    except ImportError:
-        raise ValueError("google-cloud-texttospeech 패키지가 설치되지 않았습니다.")
     except Exception as e:
         raise ValueError(f"Gemini TTS API 오류: {str(e)}")

 def predict_gemini_tts(text: str, voice: str = "Aoede", model: str = "gemini-2.5-flash-tts") -> str:
+    """Gemini TTS API 호출 (REST API 방식)"""
     api_key = GEMINI_TTS_API_KEY
     if not api_key:
         raise ValueError("GEMINI_TTS_API_KEY 환경 변수가 설정되지 않았습니다.")
     try:
+        # REST API 엔드포인트
+        url = f"https://texttospeech.googleapis.com/v1beta1/text:synthesize?key={api_key}"
+        payload = {
+            "input": {
+                "text": text,
+                "prompt": "친절하고 자연스러운 톤으로 말해주세요"
+            },
+            "voice": {
+                "languageCode": "ko-kr",
+                "name": voice,
+                "modelName": model
+            },
+            "audioConfig": {
+                "audioEncoding": "LINEAR16",
+                "sampleRateHertz": 24000
+            }
+        }
+        response = requests.post(
+            url,
+            headers={"Content-Type": "application/json"},
+            json=payload,
+            timeout=60
         )
+        response.raise_for_status()
+        audio_content = response.json().get("audioContent")
+        if not audio_content:
+            raise ValueError("Gemini TTS API가 오디오를 반환하지 않았습니다.")
+        audio_bytes = base64.b64decode(audio_content)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+            f.write(audio_bytes)
             return f.name
+    except requests.exceptions.RequestException as e:
+        raise ValueError(f"Gemini TTS API 요청 오류: {str(e)}")
     except Exception as e:
         raise ValueError(f"Gemini TTS API 오류: {str(e)}")