Spaces:

KGNINJA
/

Kansign

Sleeping

App Files Files Community

KGNINJA commited on Nov 15, 2025

Commit

79bab02

verified ·

1 Parent(s): ff5e6bf

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -52

app.py CHANGED Viewed

@@ -2,86 +2,80 @@ import os
 import numpy as np
 import librosa
 import pyworld as pw
-import gradio as gr
 from openai import OpenAI
-import io
-# -----------------------------
-# OpenAI Client
-# -----------------------------
-OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
-client = OpenAI(api_key=OPENAI_API_KEY)
-# ==========================
-# 1) 標準TTS（OpenAI）
-# ==========================
 def tts_standard(text):
-    """
-    OpenAIのTTS → WAVバイナリを返す
-    """
     response = client.audio.speech.create(
         model="gpt-4o-mini-tts",
         voice="alloy",
-        input=text,
-        format="wav"
     )
     audio_bytes = response.read()
-    return audio_bytes
-# ==========================
-# 2) F0を関西イントネーションへ変換
-# ==========================
-def convert_to_kansai_pitch(wav_bytes):
-    """
-    WAVのバイナリを読み込み → F0変形 → WAVに再エンコード
-    """
-    # BytesIO で読み込み
-    audio, sr = librosa.load(io.BytesIO(wav_bytes), sr=None)
-    # WORLD分解
     f0, sp, ap = pw.wav2world(audio.astype(np.float64), sr)
-    nonzero_idx = np.where(f0 > 0)[0]
-    if len(nonzero_idx) < 2:
-        return wav_bytes  # 再合成せず返す
-    high = np.max(f0[nonzero_idx])
-    low = np.min(f0[nonzero_idx])
-    # HL曲線（関西イントネーション）
     f0_new = np.linspace(high, low, len(f0))
-    # WORLD再合成
-    y = pw.synthesize(f0_new, sp, ap, sr).astype(np.float32)
-    # WAVに戻す
-    out_buf = io.BytesIO()
-    import soundfile as sf
-    sf.write(out_buf, y, sr, format="WAV")
-    return out_buf.getvalue()
-# ==========================
-# 3) Kansai TTS（統合）
-# ==========================
 def kansai_tts(text):
-    wav = tts_standard(text)
-    wav_kansai = convert_to_kansai_pitch(wav)
-    # Gradio は (sr, audio_bytes) or just audio_bytes が使える
-    return wav_kansai
-# ==========================
-# Gradio UI
-# ==========================
 with gr.Blocks() as demo:
     gr.Markdown("## 🔊 Kansign — Kansai Accent TTS（OpenAI版・安定稼働）")
-    text_in = gr.Textbox(label="テキストを入力（例：なんでやねん）", value="なんでやねん")
     audio_out = gr.Audio(label="関西イントネーション音声", type="filepath")
     btn = gr.Button("関西イントネーションで喋る")

 import numpy as np
 import librosa
 import pyworld as pw
+import soundfile as sf
 from openai import OpenAI
+import gradio as gr
+import tempfile
+client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+# ----------------------------------------
+# 1) OpenAI 標準TTS
+# ----------------------------------------
 def tts_standard(text):
+    """OpenAIの標準TTSをWAVとして取得"""
     response = client.audio.speech.create(
         model="gpt-4o-mini-tts",
         voice="alloy",
+        input=text
     )
     audio_bytes = response.read()
+    # 一度 temp wav に保存して librosa で読み込む
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+        tmp.write(audio_bytes)
+        tmp_path = tmp.name
+    audio, sr = librosa.load(tmp_path, sr=22050)
+    return sr, audio
+# ----------------------------------------
+# 2) F0 を関西イントネーション（HL型）へ変換
+# ----------------------------------------
+def convert_to_kansai_pitch(audio, sr):
+    """標準TTSの音声 → 関西イントネーションHL型へ"""
     f0, sp, ap = pw.wav2world(audio.astype(np.float64), sr)
+    nz = np.where(f0 > 0)[0]
+    if len(nz) < 2:
+        return audio
+    high = np.max(f0[nz])
+    low = np.min(f0[nz])
+    # HL（High → Low）へ滑らかに下降
     f0_new = np.linspace(high, low, len(f0))
+    y = pw.synthesize(f0_new, sp, ap, sr)
+    return y.astype(np.float32)
+# ----------------------------------------
+# 3) Kansai Accent TTS コア関数
+# ----------------------------------------
 def kansai_tts(text):
+    sr, audio_std = tts_standard(text)
+    audio_kansai = convert_to_kansai_pitch(audio_std, sr)
+    # 出力 wav を一時ファイルに保存
+    out_path = tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name
+    sf.write(out_path, audio_kansai, sr)
+    return out_path
+# ----------------------------------------
+# 4) Gradio UI
+# ----------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown("## 🔊 Kansign — Kansai Accent TTS（OpenAI版・安定稼働）")
+    text_in = gr.Textbox(label="テキストを入力（例：なんでやねん）")
     audio_out = gr.Audio(label="関西イントネーション音声", type="filepath")
     btn = gr.Button("関西イントネーションで喋る")