Spaces:

buchi-stdesign
/

3DAItuber

Paused

App Files Files Community

buchi-stdesign commited on Jun 15, 2025

Commit

ca78aa1

verified ·

1 Parent(s): f1a6899

Upload 2 files

Browse files

Files changed (2) hide show

app.py +25 -96
requirements.txt +4 -12

app.py CHANGED Viewed

@@ -1,105 +1,34 @@
 import streamlit as st
-import torch
-from diffusers import StableBeluga2Pipeline
 import numpy as np
 import soundfile as sf
 import io
-import base64
-from huggingface_hub import hf_hub_download
-import asyncio
-import time
-from concurrent.futures import ThreadPoolExecutor
-import os
-# モデルのダウンロードと初期化
 @st.cache_resource
 def load_model():
-    try:
-        # モデルのキャッシュディレクトリを設定
-        cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
-        os.makedirs(cache_dir, exist_ok=True)
-        model_id = "stabilityai/stable-beluga-2"
-        pipe = StableBeluga2Pipeline.from_pretrained(
-            model_id,
-            torch_dtype=torch.float16,
-            use_safetensors=True,
-            variant="fp16",
-            cache_dir=cache_dir
-        )
-        if torch.cuda.is_available():
-            pipe = pipe.to("cuda")
-        return pipe
-    except Exception as e:
-        st.error(f"モデルの読み込み中にエラーが発生しました: {str(e)}")
-        return None
-# 音声生成を非同期で実行する関数
-def generate_audio_async(pipe, text, progress_bar):
-    try:
-        # 音声生成
-        audio = pipe(
-            text,
-            num_inference_steps=50,
-            guidance_scale=7.5
-        ).audio[0]
-        # プログレスバーを更新
-        progress_bar.progress(1.0)
-        return audio
-    except Exception as e:
-        st.error(f"音声生成中にエラーが発生しました: {str(e)}")
-        return None
-# メインアプリケーション
-def main():
-    st.title("AI VTuber チャット")
-    # モデルの読み込み
-    with st.spinner("モデルを読み込み中..."):
-        pipe = load_model()
-    if pipe is None:
-        st.error("モデルの読み込みに失敗しました。アプリケーションを再起動してください。")
-        return
-    # チャット履歴の初期化
-    if "messages" not in st.session_state:
-        st.session_state.messages = []
-    # チャット入力
-    user_input = st.chat_input("メッセージを入力してください")
-    if user_input:
-        # ユーザーメッセージを表示
-        st.session_state.messages.append({"role": "user", "content": user_input})
-        # 音声生成の進捗バー
-        progress_bar = st.progress(0.0)
-        status_text = st.empty()
-        status_text.text("音声を生成中...")
-        # 音声生成を非同期で実行
-        with ThreadPoolExecutor() as executor:
-            future = executor.submit(generate_audio_async, pipe, user_input, progress_bar)
-            audio = future.result()
-        if audio is not None:
-            # 音声データを保存
-            audio_path = "generated_audio.wav"
-            sf.write(audio_path, audio.cpu().numpy(), 44100)
-            # 音声プレーヤーを表示
-            st.audio(audio_path)
-            # ステータステキストを更新
-            status_text.text("音声生成完了！")
-            # チャット履歴を表示
-            for message in st.session_state.messages:
-                with st.chat_message(message["role"]):
-                    st.write(message["content"])
-if __name__ == "__main__":
-    main()

 import streamlit as st
 import numpy as np
 import soundfile as sf
 import io
+from style_bert_vits2 import TTSModel
+# モデルファイルのパス
+MODEL_PATH = "Anneli_e116_s32000.safetensors"
+CONFIG_PATH = "config.json"
+STYLE_VEC_PATH = "style_vectors.npy"
 @st.cache_resource
 def load_model():
+    tts = TTSModel(
+        model_path=MODEL_PATH,
+        config_path=CONFIG_PATH,
+        style_vec_path=STYLE_VEC_PATH,
+        device="cpu"  # 無料枠はCPUのみ
+    )
+    return tts
+def generate_audio(text, tts):
+    sr, wav = tts.infer(text=text, length=0.85)
+    buffer = io.BytesIO()
+    sf.write(buffer, wav, sr, format='WAV')
+    buffer.seek(0)
+    return buffer
+st.title("AI VTuber チャット（SBV2版）")
+tts = load_model()
+user_input = st.text_input("メッセージを入力してください：")
+if user_input:
+    audio_fp = generate_audio(user_input, tts)
+    st.audio(audio_fp, format="audio/wav")

requirements.txt CHANGED Viewed

@@ -1,12 +1,4 @@
-torch>=2.0.0
-torchaudio>=2.0.0
-diffusers>=0.33.1
-transformers>=4.52.4
-accelerate>=1.7.0
-streamlit>=1.32.0
-numpy>=1.24.0
-soundfile>=0.12.1
-huggingface-hub>=0.27.0
-google-generativeai
-pytchat
-style-bert-vits2

+streamlit
+numpy
+soundfile
+style-bert-vits2