VoiceChat

Paused

legolasyiu commited on about 1 month ago

Commit

430aac7

verified ·

1 Parent(s): 940de6e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,7 +29,7 @@ print("Loading STT model...")
 stt_processor = AutoProcessor.from_pretrained(STT_MODEL_ID)
 stt_model = AutoModelForImageTextToText.from_pretrained(
     STT_MODEL_ID,
-    torch_dtype=DTYPE,
     device_map="auto",
 )
@@ -37,8 +37,8 @@ print("Loading TTS model...")
 tts_tokenizer = AutoTokenizer.from_pretrained(TTS_MODEL_ID)
 tts_model = AutoModelForCausalLM.from_pretrained(
     TTS_MODEL_ID,
-    torch_dtype=DTYPE,
-).to(DEVICE)
 # -----------------------------
 # PIPELINE FUNCTION
@@ -73,7 +73,7 @@ def speech_to_speech(audio_file):
     tts_inputs = tts_tokenizer(
         transcription,
         return_tensors="pt",
-    ).to(DEVICE)
     with torch.no_grad():
         speech = tts_model.generate(**tts_inputs)

 stt_processor = AutoProcessor.from_pretrained(STT_MODEL_ID)
 stt_model = AutoModelForImageTextToText.from_pretrained(
     STT_MODEL_ID,
+    torch_dtype="auto",
     device_map="auto",
 )
 tts_tokenizer = AutoTokenizer.from_pretrained(TTS_MODEL_ID)
 tts_model = AutoModelForCausalLM.from_pretrained(
     TTS_MODEL_ID,
+    torch_dtype="auto",
+)
 # -----------------------------
 # PIPELINE FUNCTION
     tts_inputs = tts_tokenizer(
         transcription,
         return_tensors="pt",
+    )
     with torch.no_grad():
         speech = tts_model.generate(**tts_inputs)