Spaces:

farid678
/

TTSModel

Runtime error

App Files Files Community

farid678 commited on Dec 3, 2025

Commit

b814e71

verified ·

1 Parent(s): 9a94b51

create app.py file

Browse files

Files changed (1) hide show

app.py +87 -0

app.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import torch
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from unsloth import FastLanguageModel
+from snac import SNAC
+import torchaudio
+import io
+# -----------------------------
+# CONFIG
+# -----------------------------
+BASE_MODEL = "unsloth/Orpheus-3B"
+ADAPTER_PATH = "model"        # put your adapter files here
+SNAC_MODEL = "snacai/snac_24khz"
+# -----------------------------
+# LOAD TOKENIZER
+# -----------------------------
+tokenizer = AutoTokenizer.from_pretrained(ADAPTER_PATH, use_fast=True)
+# -----------------------------
+# LOAD BASE MODEL + LORA
+# -----------------------------
+model = FastLanguageModel.from_pretrained(
+    model_name = BASE_MODEL,
+    max_seq_length = 4096,
+    load_in_4bit = False,
+)
+model = FastLanguageModel.load_lora(
+    model,
+    ADAPTER_PATH,
+)
+model.eval()
+# -----------------------------
+# LOAD SNAC CODEC
+# -----------------------------
+device = "cuda" if torch.cuda.is_available() else "cpu"
+codec = SNAC.from_pretrained(SNAC_MODEL).to(device)
+# -----------------------------
+# INFERENCE FUNCTION
+# -----------------------------
+def tts_generate(text):
+    if not text.strip():
+        return None
+    inputs = tokenizer(text, return_tensors="pt").to(device)
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=1024,
+            do_sample=True,
+            temperature=0.8,
+            top_p=0.9,
+            eos_token_id=tokenizer.eos_token_id,
+        )
+    # Extract audio codes
+    generated_ids = outputs[0][inputs["input_ids"].shape[1]:]
+    codes = generated_ids.unsqueeze(0).to(device)
+    # Decode using SNAC
+    audio = codec.decode(codes).cpu().squeeze().numpy()
+    # Convert to WAV data for Gradio
+    buffer = io.BytesIO()
+    torchaudio.save(buffer, torch.tensor(audio).unsqueeze(0), 24000, format="wav")
+    buffer.seek(0)
+    return (24000, audio)
+# -----------------------------
+# GRADIO INTERFACE
+# -----------------------------
+demo = gr.Interface(
+    fn=tts_generate,
+    inputs=gr.Textbox(label="متن را وارد کنید"),
+    outputs=gr.Audio(label="صدای تولید‌شده"),
+    title="Unsloth TTS (Orpheus 3B + LoRA)",
+    description="متن را وارد کنید تا مدل صدا تولید کند.",
+)
+if __name__ == "__main__":
+    demo.launch()