Spaces:

KGNINJA
/

Kansign

Sleeping

App Files Files Community

KGNINJA commited on Nov 15, 2025

Commit

ff5e6bf

verified ·

1 Parent(s): fc8c147

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -37

app.py CHANGED Viewed

@@ -2,9 +2,9 @@ import os
 import numpy as np
 import librosa
 import pyworld as pw
-import soundfile as sf
 import gradio as gr
 from openai import OpenAI
 # -----------------------------
 # OpenAI Client
@@ -14,66 +14,64 @@ client = OpenAI(api_key=OPENAI_API_KEY)
 # ==========================
-# 1) OpenAI 標準音声 TTS
 # ==========================
 def tts_standard(text):
     """
-    OpenAI gpt-4o-mini-ttsで基本音声を生成
     """
     response = client.audio.speech.create(
         model="gpt-4o-mini-tts",
         voice="alloy",
-        input=text
     )
     audio_bytes = response.read()
-    # WAVとして読み込む
-    sr, audio = sf.read(
-        sf.SoundFile(
-            io.BytesIO(audio_bytes),
-            mode='r'
-        )
-    )
-    return sr, audio.astype(np.float32)
 # ==========================
-# 2) F0を関西イントネーションHL型に変換
 # ==========================
-def convert_to_kansai_pitch(audio, sr):
     """
-    標準TTS音声 → 関西弁イントネーション（HLパターン）へ変換
     """
-    # WORLDで分解
     f0, sp, ap = pw.wav2world(audio.astype(np.float64), sr)
-    # 有効フレーム
     nonzero_idx = np.where(f0 > 0)[0]
     if len(nonzero_idx) < 2:
-        return audio
-    # 基本周波数の範囲
     high = np.max(f0[nonzero_idx])
     low = np.min(f0[nonzero_idx])
-    # HLパターン（前半高 → 後半低）
-    hl_curve = np.linspace(high, low, len(f0))
-    f0_new = hl_curve
-    # WORLDで再合成
-    y = pw.synthesize(f0_new, sp, ap, sr)
-    return y.astype(np.float32)
 # ==========================
-# 3) 統合：Kansai TTS
 # ==========================
 def kansai_tts(text):
-    sr, audio_std = tts_standard(text)
-    audio_kansai = convert_to_kansai_pitch(audio_std, sr)
-    return (sr, audio_kansai)
 # ==========================
@@ -82,15 +80,11 @@ def kansai_tts(text):
 with gr.Blocks() as demo:
     gr.Markdown("## 🔊 Kansign — Kansai Accent TTS（OpenAI版・安定稼働）")
-    text_in = gr.Textbox(
-        label="テキストを入力（例：なんでやねん）",
-        value="なんでやねん"
-    )
-    audio_out = gr.Audio(label="関西イントネーション音声", type="numpy")
     btn = gr.Button("関西イントネーションで喋る")
     btn.click(kansai_tts, inputs=text_in, outputs=audio_out)
 demo.launch()

 import numpy as np
 import librosa
 import pyworld as pw
 import gradio as gr
 from openai import OpenAI
+import io
 # -----------------------------
 # OpenAI Client
 # ==========================
+# 1) 標準TTS（OpenAI）
 # ==========================
 def tts_standard(text):
     """
+    OpenAIのTTS → WAVバイナリを返す
     """
     response = client.audio.speech.create(
         model="gpt-4o-mini-tts",
         voice="alloy",
+        input=text,
+        format="wav"
     )
     audio_bytes = response.read()
+    return audio_bytes
 # ==========================
+# 2) F0を関西イントネーションへ変換
 # ==========================
+def convert_to_kansai_pitch(wav_bytes):
     """
+    WAVのバイナリを読み込み → F0変形 → WAVに再エンコード
     """
+    # BytesIO で読み込み
+    audio, sr = librosa.load(io.BytesIO(wav_bytes), sr=None)
+    # WORLD分解
     f0, sp, ap = pw.wav2world(audio.astype(np.float64), sr)
     nonzero_idx = np.where(f0 > 0)[0]
     if len(nonzero_idx) < 2:
+        return wav_bytes  # 再合成せず返す
     high = np.max(f0[nonzero_idx])
     low = np.min(f0[nonzero_idx])
+    # HL曲線（関西イントネーション）
+    f0_new = np.linspace(high, low, len(f0))
+    # WORLD再合成
+    y = pw.synthesize(f0_new, sp, ap, sr).astype(np.float32)
+    # WAVに戻す
+    out_buf = io.BytesIO()
+    import soundfile as sf
+    sf.write(out_buf, y, sr, format="WAV")
+    return out_buf.getvalue()
 # ==========================
+# 3) Kansai TTS（統合）
 # ==========================
 def kansai_tts(text):
+    wav = tts_standard(text)
+    wav_kansai = convert_to_kansai_pitch(wav)
+    # Gradio は (sr, audio_bytes) or just audio_bytes が使える
+    return wav_kansai
 # ==========================
 with gr.Blocks() as demo:
     gr.Markdown("## 🔊 Kansign — Kansai Accent TTS（OpenAI版・安定稼働）")
+    text_in = gr.Textbox(label="テキストを入力（例：なんでやねん）", value="なんでやねん")
+    audio_out = gr.Audio(label="関西イントネーション音声", type="filepath")
     btn = gr.Button("関西イントネーションで喋る")
     btn.click(kansai_tts, inputs=text_in, outputs=audio_out)
 demo.launch()