sooktam2 / test.py
Renderlib-dev's picture
Duplicate from bharatgenai/sooktam2
bccbc5b
Raw
History Blame Contribute Delete
1.26 kB
import os
from transformers import AutoModel
# --- Paths / model id (adjust if needed) ---
REPO_DIR = "."
MODEL_ID = "bharatgenai/sooktam2"
REF_AUDIO = "./ref.wav"
REF_TEXT = "सर, मैं तब से यह कह रहा हूँ कि मैंने अपना टिकट कैंसल कर दिया है, लेकिन अब तक मेरे पैसे वापस नहीं आए हैं। आप इस मामले को देखेंगे भी या नहीं?"
GEN_TEXT = "यह एक टेस्ट वाक्य है जिसे आवाज़ में बदलना है।"
OUT_DIR = os.path.join(REPO_DIR, "outputs")
OUT_WAV = os.path.join(OUT_DIR, "sooktam_cls.wav")
# CLS tokenization is handled inside utils_infer via cls_tokenizer_v2.
# --- Load TTS model via AutoModel (auto-download ckpt + vocab from HF) ---
model = AutoModel.from_pretrained(
MODEL_ID,
trust_remote_code=True,
)
os.makedirs(OUT_DIR, exist_ok=True)
wav, sr, _ = model.infer(
ref_file=REF_AUDIO,
ref_text=REF_TEXT,
gen_text=GEN_TEXT,
tokenizer="cls",
cls_language="hindi",
file_wave=OUT_WAV,
)
print("Saved:", OUT_WAV, "sample_rate:", sr, "samples:", len(wav))