Spaces:

Rezfars
/

Ttsgoftego

Runtime error

App Files Files Community

Rezfars commited on Nov 11, 2025

Commit

7d84cd2

verified ·

1 Parent(s): b1417c1

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -29

app.py CHANGED Viewed

@@ -1,49 +1,41 @@
-import os
 import torch
-import soundfile as sf
 from transformers import AutoTokenizer, VitsModel
-# مدل فارسی انتخاب شده
-MODEL_NAME = "facebook/mms-tts-fas"
 def init_model():
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = VitsModel.from_pretrained(MODEL_NAME)
     return tokenizer, model
-def synthesize(text, tokenizer, model, speaker_id=0, rate=1.0, pitch=1.0):
-    # speaker_id: برای انتخاب “صدای” مختلف اگر مدل پشتیبانی کنه
-    # rate, pitch: پارامتر ساده برای تغییر سرعت/کِشِش صدا (اگر قابل باشه)
     inputs = tokenizer(text, return_tensors="pt")
     with torch.no_grad():
         outputs = model(**inputs)
-        waveform = outputs.waveform.squeeze().cpu().numpy()
-        sampling_rate = model.config.sampling_rate
-    # ساده سازی: نرخ یا pitch تغییر نمیشه به صورت مستقیم، مگر مدل پشتیبانی کنه
-    return waveform, sampling_rate
-def save_wav(waveform, rate, filepath):
-    sf.write(filepath, waveform, rate)
 def main():
     tokenizer, model = init_model()
-    print("مدل آماده است.")
-    # نمونه گفتگو دو نفره
-    speaker1_text = input("متن برای نفر اول: ")
-    speaker2_text = input("متن برای نفر دوم: ")
-    # نفر اول: صدای “نرمال”
-    wav1, sr1 = synthesize(speaker1_text, tokenizer, model, speaker_id=0)
     save_wav(wav1, sr1, "speaker1.wav")
-    print("فایل speaker1.wav ذخیره شد.")
-    # نفر دوم: صدای “نرمال” یا می‌تونی speaker_id=1 قرار بدی اگر مدل پشتیبانی کنه
-    wav2, sr2 = synthesize(speaker2_text, tokenizer, model, speaker_id=0)
     save_wav(wav2, sr2, "speaker2.wav")
-    print("فایل speaker2.wav ذخیره شد.")
-    print("تموم شد—می‌تونی فایل‌های wav رو گوش بدی.")
 if __name__ == "__main__":
     main()

 import torch
 from transformers import AutoTokenizer, VitsModel
+import numpy as np
+import soundfile as sf
+MODEL_NAME = "facebook/mms-tts-eng"  # فقط نمونه؛ ممکن است برای فارسی نشناسد
+# اگر مدل فارسی پیدا شد، اون رو بزار مثلا: "Kamtera/persian-tts‑male‑vits"
 def init_model():
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = VitsModel.from_pretrained(MODEL_NAME)
     return tokenizer, model
+def synthesize(text, tokenizer, model):
     inputs = tokenizer(text, return_tensors="pt")
     with torch.no_grad():
         outputs = model(**inputs)
+    if not hasattr(outputs, "waveform"):
+        raise ValueError("مدل خروجی waveform ندارد. خروجی: {}".format(outputs))
+    waveform = outputs.waveform.squeeze().cpu().numpy()
+    # اگر بعد ذخیره به خطا خورد، امتحان کن:
+    # waveform = waveform.T
+    sr = model.config.sampling_rate
+    return waveform, sr
+def save_wav(waveform, sr, filename):
+    sf.write(filename, waveform, sr)
+    print(f"ذخیره شد: {filename}")
 def main():
     tokenizer, model = init_model()
+    print("مدل آماده است:", MODEL_NAME)
+    text1 = input("متن نفر اول: ")
+    wav1, sr1 = synthesize(text1, tokenizer, model)
     save_wav(wav1, sr1, "speaker1.wav")
+    text2 = input("متن نفر دوم: ")
+    wav2, sr2 = synthesize(text2, tokenizer, model)
     save_wav(wav2, sr2, "speaker2.wav")
 if __name__ == "__main__":
     main()