Spaces:

channelcorp
/

JA-TTS-Arena

Runtime error

App Files Files Community

Ko-TTS-Arena Contributors commited on Dec 29, 2025

Commit

c571e18

1 Parent(s): ee853d8

Add Cartesia Sonic 3 TTS with Japanese Kora voice

Browse files

Files changed (2) hide show

models.py +10 -0
tts.py +59 -0

models.py CHANGED Viewed

@@ -637,6 +637,7 @@ def insert_initial_models():
     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
     has_clova = bool(os.getenv("CLOVA_CLIENT_ID")) and bool(os.getenv("CLOVA_API_KEY"))
     has_narakeet = bool(os.getenv("NARAKEET_API_KEY"))
     tts_models = [
         # ElevenLabs (多言語対応) - API キーがある時のみ活性化
@@ -693,6 +694,15 @@ def insert_initial_models():
             is_active=has_narakeet,
             model_url="https://www.narakeet.com/",
         ),
     ]
     for model in tts_models:

     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
     has_clova = bool(os.getenv("CLOVA_CLIENT_ID")) and bool(os.getenv("CLOVA_API_KEY"))
     has_narakeet = bool(os.getenv("NARAKEET_API_KEY"))
+    has_cartesia = bool(os.getenv("CARTESIA_API_KEY"))
     tts_models = [
         # ElevenLabs (多言語対応) - API キーがある時のみ活性化
             is_active=has_narakeet,
             model_url="https://www.narakeet.com/",
         ),
+        # Cartesia TTS (日本語対応) - Sonic 3 Kora voice
+        Model(
+            id="cartesia-sonic3",
+            name="Cartesia Sonic 3",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_cartesia,
+            model_url="https://cartesia.ai/",
+        ),
     ]
     for model in tts_models:

tts.py CHANGED Viewed

@@ -58,6 +58,9 @@ TYPECAST_API_KEY = os.getenv("TYPECAST_API_KEY")
 # Narakeet TTS
 NARAKEET_API_KEY = os.getenv("NARAKEET_API_KEY")
 # Gemini TTS (Google Cloud) - 서비스 계정 JSON 필요 (API Key 미지원)
 GOOGLE_APPLICATION_CREDENTIALS_JSON = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 if GOOGLE_APPLICATION_CREDENTIALS_JSON:
@@ -216,6 +219,13 @@ model_mapping = {
         "provider": "narakeet",
         "voice": "kaori",  # 日本語女性音声
     },
 }
@@ -555,6 +565,46 @@ def predict_narakeet_tts(text: str, voice: str = "kaori") -> str:
         return f.name
 def predict_gemini_2_5_flash_tts(text: str, voice: str = "Kore") -> str:
     """Gemini 2.5 Flash Preview TTS API 호출 (API Key 방식)"""
     if not GEMINI_API_KEY:
@@ -691,6 +741,15 @@ def predict_tts(text: str, model: str) -> str:
         audio_path = predict_narakeet_tts(text, config.get("voice", "kaori"))
         is_mp3 = True  # Narakeet returns MP3
     else:
         raise ValueError(f"不明なprovider: {provider}")

 # Narakeet TTS
 NARAKEET_API_KEY = os.getenv("NARAKEET_API_KEY")
+# Cartesia TTS
+CARTESIA_API_KEY = os.getenv("CARTESIA_API_KEY")
 # Gemini TTS (Google Cloud) - 서비스 계정 JSON 필요 (API Key 미지원)
 GOOGLE_APPLICATION_CREDENTIALS_JSON = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 if GOOGLE_APPLICATION_CREDENTIALS_JSON:
         "provider": "narakeet",
         "voice": "kaori",  # 日本語女性音声
     },
+    # Cartesia TTS (日本語対応) - Sonic 3 model
+    "cartesia-sonic3": {
+        "provider": "cartesia",
+        "model_id": "sonic-3",
+        "voice_id": "a0e99841-438c-4a64-b679-ae501e7d6091",  # Kora - Japanese female
+        "language": "ja",
+    },
 }
         return f.name
+def predict_cartesia_tts(text: str, model_id: str = "sonic-3", voice_id: str = "a0e99841-438c-4a64-b679-ae501e7d6091", language: str = "ja") -> str:
+    """Cartesia TTS API 呼び出し (Sonic 3 model)"""
+    api_key = CARTESIA_API_KEY
+    if not api_key:
+        raise ValueError("CARTESIA_API_KEY 環境変数が設定されていません。")
+    url = "https://api.cartesia.ai/tts/bytes"
+    payload = {
+        "model_id": model_id,
+        "transcript": text,
+        "voice": {
+            "mode": "id",
+            "id": voice_id
+        },
+        "language": language,
+        "output_format": {
+            "container": "wav",
+            "encoding": "pcm_s16le",
+            "sample_rate": 24000
+        }
+    }
+    response = requests.post(
+        url,
+        headers={
+            "Authorization": f"Bearer {api_key}",
+            "Cartesia-Version": "2024-06-10",
+            "Content-Type": "application/json",
+        },
+        json=payload,
+        timeout=60,
+    )
+    response.raise_for_status()
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        f.write(response.content)
+        return f.name
 def predict_gemini_2_5_flash_tts(text: str, voice: str = "Kore") -> str:
     """Gemini 2.5 Flash Preview TTS API 호출 (API Key 방식)"""
     if not GEMINI_API_KEY:
         audio_path = predict_narakeet_tts(text, config.get("voice", "kaori"))
         is_mp3 = True  # Narakeet returns MP3
+    elif provider == "cartesia":
+        audio_path = predict_cartesia_tts(
+            text,
+            config.get("model_id", "sonic-3"),
+            config.get("voice_id", "a0e99841-438c-4a64-b679-ae501e7d6091"),
+            config.get("language", "ja"),
+        )
+        # Cartesia returns WAV at 24kHz
     else:
         raise ValueError(f"不明なprovider: {provider}")